web-scraping - 是否存在任何开放的，可简单扩展的Web搜寻器？

我正在寻找一个网络爬虫解决方案，它可以足够成熟并且可以简单地扩展。我对以下功能感兴趣...或者有可能扩展搜寻器以满足它们：

部分只是为了阅读几个站点的提要
抓取这些网站的内容
如果该站点有存档，我也想对其进行爬网和建立索引
搜寻器应该能够为我探索Web的一部分，并且应该能够确定哪些网站符合给定条件
如果发现可能符合我的兴趣的东西，应该能够通知我
搜寻器不应通过攻击过多的请求来杀死服务器，而是在进行搜寻时应该很聪明
搜寻器应具有针对异常站点和服务器的鲁棒性

上面的那些事情可以不费吹灰之力就能一一完成，但是我对提供可定制，可扩展的爬虫的任何解决方案都感兴趣。我听说过Apache Nutch，但到目前为止还不确定该项目。你有经验吗？你能推荐替代品吗？

最佳答案

快速搜索GitHub引发了Anemone，这是一个符合您要求的网络蜘蛛框架-特别是可扩展性。用Ruby编写。
希望一切顺利！