我遇到了一个开源爬虫Bixo。
有人尝试过吗?您能否分享学习的经验?我们是否可以足够轻松地构建定向爬虫(与Nutch / Heritrix相比)?
谢谢
奈恩

最佳答案

我在大型社交网站(每天100万次页面访问)的生产中使用Bixo进行用户内容分类(基本上是用户生产的任何带有链接的内容)。

使用Cascading进行操作是相当复杂的工作流程

  • 重复数据删除网址,
  • 使Bixo检索页面内容
  • 通过分类器和
  • 推送页面内容
  • 触发垃圾邮件帐户的帐户吊销,运行垃圾邮件报告等。

  • 如果您知道Cascading,那么Bixo的工作原理就和其他任何Cascading组件一样,基本上就是将URL作为输入,并发出大量与页面相关的信息作为输出。

    一开始我低估的一件事是,对于许多垂直爬虫而言,爬坡方面仅是拼图中的一小部分。围绕它的整个工作流程可能会变得非常复杂,如果您使用其他隔离的爬虫产品,则需要找到一种方法来对其进行集成。使用Cascading的Bixo只是工作流程的另一项输入。

    Bixo本身似乎非常扎实。 Ken Krugler(首席开发人员)反应灵敏,能够在一天内解决我最初遇到的一些挂起的问题(我的数据集包含许多“脏” URL)。他拥有非常全面的自动化测试套件,可确保Bixo按设计工作。

    总的来说,我不能推荐它太高。整个系统是由我在6到9个月内构建的,我认为在那个时间段内没有它可以做到。

    关于java - 使用Bixo构建垂直爬虫,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/3276808/

    10-09 15:45