我需要使用Java开发的具有增量爬网支持的开源Web爬网程序。
Web搜寻器应易于定制,并与solr或elasticsearch集成。
它应该是一个积极的,正在以更多功能进一步发展的产品。
Aperture是一个很好的爬虫程序之一,它具有我提到的所有功能,但它不是活动的爬虫程序,并且由于许可证(如果我将其用于商业目的)的依赖关系,我将其忽略。
Nutch-一个具有爬虫支持的更多功能的网络爬虫。但是我浏览了许多网站和教程,没有合适的文档,找不到在Windows中以编程方式对其进行自定义的api。我可以在eclipse中编辑代码,但是在运行map reduce作业时会导致很多错误。没有java api可以实现像光圈一样的坚果。
Crawl4j是一个很好的Web爬网程序,但是它没有增量爬网功能,而且我还没有检查许可证问题。


是否有其他具有我提到的所有功能的搜寻器,或者可以使用任何一种上述搜寻器来满足我的要求?

有用的答案将不胜感激。

最佳答案

看起来很适合Norconex HTTP Collector


它是用Java 100%编写的。
它可以完全在Windows上运行(不需要Cygwin或Linux / Unix VM)。
它通过示例和一个提出问题/提出问题的论坛(github)进行了很好的记录。
它支持增量爬网,检测已修改的文档以及已删除的文档。
它同时支持Solr和Elasticsearch,以及更多(通过使用其“ Committers”)。
它具有广泛的可配置性/灵活性。它很容易与它集成并为其提供自定义功能,而无需学习复杂的插件机制(实现一个接口,将其放在类路径中,等等)。
它的发展非常活跃。


它由企业搜索专业公司Norconex维护。问题得到快速解决。 2.0.0版正在大量开发中,很快就带来了许多新功能(语言检测,文档拆分等)。

它是GPL,但是如果您遇到GPL的问题,Norconex可提供商业许可。

它还具有您未列出的许多其他功能,例如在将文档内容发送到搜索引擎之前对其进行操作的功能。它还支持站点地图,机器人规则等。我邀请您尝试一下:http://www.norconex.com/product/collector-http/

关于java - 具有对Windows的增量爬网支持的Web爬网程序,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/25973854/

10-08 22:52