我想选择以上一种方法来为特定网站构建爬网框架。这不是整个Internet的爬网。我不是在建立搜索索引,而是有兴趣从网站上抓取特定页面。

有人可以详细说明上述优点和缺点吗?
谢谢
内恩

最佳答案

您的主要任务是从网站上抓取特定页面。

Nutch:基于Lucene Java构建的开源Web搜索软件

Heritrix:是Internet Archive的开源,可扩展,网络规模,档案质量的Web爬虫项目

因此,我认为Heritrix在您的项目上比Nutch更好。

学习框架/库是有价值的练习。但是需要一些时间。由于您的任务不是很复杂,因此有时用Java从头开始编写一个简单的搜寻器会比较省事

07-26 08:20