我正在寻找一个网络爬虫解决方案,它可以足够成熟并且可以简单地扩展。我对以下功能感兴趣...或者有可能扩展搜寻器以满足它们:


部分只是为了阅读几个站点的提要
抓取这些网站的内容
如果该站点有存档,我也想对其进行爬网和建立索引
搜寻器应该能够为我探索Web的一部分,并且应该能够确定哪些网站符合给定条件
如果发现可能符合我的兴趣的东西,应该能够通知我
搜寻器不应通过攻击过多的请求来杀死服务器,而是在进行搜寻时应该很聪明
搜寻器应具有针对异常站点和服务器的鲁棒性


上面的那些事情可以不费吹灰之力就能一一完成,但是我对提供可定制,可扩展的爬虫的任何解决方案都感兴趣。我听说过Apache Nutch,但到目前为止还不确定该项目。你有经验吗?你能推荐替代品吗?

最佳答案

快速搜索GitHub引发了Anemone,这是一个符合您要求的网络蜘蛛框架-特别是可扩展性。用Ruby编写。
希望一切顺利!

08-04 11:12