Closed. This question is off-topic。它当前不接受答案。












想改善这个问题吗? Update the question,所以它是on-topic,用于堆栈溢出。

7年前关闭。



Improve this question





搜寻器需要具有可扩展的体系结构以允许更改内部流程,例如实施新步骤(预解析器,解析器等)。

我找到了Herritrix项目(http://crawler.archive.org/)。

但是还有其他类似的好项目吗?

最佳答案

对于免费的搜寻器,Nutch是您可以做的最好的事情。它是基于Lucene概念(以企业扩展的方式)构建的,并由Hadoop后端使用MapReduce(类似于Google)进行后端支持,以进行大规模数据查询。很棒的产品!我目前正在从manning中阅读新的(尚未发布的)Hadoop in Action中有关Hadoop的所有内容。如果您采用这种方式,建议您与他们的技术审核小组联系,以尽早获得此称号的副本!

这些都是基于Java的。如果您是.net的家伙(像我一样!),那么您可能会对Lucene.NETNutch.NETHadoop.NET感兴趣,它们都是按类传递给C#的api端口。

关于open-source - 谁知道一个好的可扩展的开源网络爬虫? ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/1039775/

10-13 03:52