web-crawler - 哪个Web搜寻器可从大约一千个网站中提取和解析数据

我正在尝试抓取大约一千个网站，我只对其中的html内容感兴趣。

然后，我将HTML转换为XML，以使用Xpath进行解析，以提取我感兴趣的特定内容。

我已经使用Heritrix 2.0搜寻器几个月了，但遇到了巨大的性能，内存和稳定性问题（Heritrix几乎每天都崩溃，并且没有尝试使用JVM参数来限制内存使用的尝试成功）。

根据您在该领域的经验，您将使用哪个搜寻器来提取和解析来自数千个来源的内容？

最佳答案

除非您想帮助改进Heritrix或正处于最前沿，否则我不会将2.x分支（已终止）或3.x（当前开发）用于任何“严重”爬网。

Heritrix 1.14.3是最新的稳定版本，它确实是稳定的，被许多机构用于小型和大型爬网。我习惯对成千上万个域进行爬网，在不到一周的时间内收集了数千万个URL。

3.x分支已经接近稳定版本了，但是即使那样，我还是要稍等一下Internet档案库和其他组织的通用版本，以提高其性能和稳定性。

更新：由于最近有人对此进行了投票，我感到值得一提的是，Heritrix 3.x现在很稳定，并且是从Heritrix开始的人的推荐版本。