我遇到了一个开源爬虫Bixo。
有人尝试过吗?您能否分享学习的经验?我们是否可以足够轻松地构建定向爬虫(与Nutch / Heritrix相比)?
谢谢
奈恩
最佳答案
我在大型社交网站(每天100万次页面访问)的生产中使用Bixo进行用户内容分类(基本上是用户生产的任何带有链接的内容)。
使用Cascading进行操作是相当复杂的工作流程
如果您知道Cascading,那么Bixo的工作原理就和其他任何Cascading组件一样,基本上就是将URL作为输入,并发出大量与页面相关的信息作为输出。
一开始我低估的一件事是,对于许多垂直爬虫而言,爬坡方面仅是拼图中的一小部分。围绕它的整个工作流程可能会变得非常复杂,如果您使用其他隔离的爬虫产品,则需要找到一种方法来对其进行集成。使用Cascading的Bixo只是工作流程的另一项输入。
Bixo本身似乎非常扎实。 Ken Krugler(首席开发人员)反应灵敏,能够在一天内解决我最初遇到的一些挂起的问题(我的数据集包含许多“脏” URL)。他拥有非常全面的自动化测试套件,可确保Bixo按设计工作。
总的来说,我不能推荐它太高。整个系统是由我在6到9个月内构建的,我认为在那个时间段内没有它可以做到。
关于java - 使用Bixo构建垂直爬虫,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/3276808/