我正在尝试抓取大约一千个网站,我只对其中的html内容感兴趣。
然后,我将HTML转换为XML,以使用Xpath进行解析,以提取我感兴趣的特定内容。
我已经使用Heritrix 2.0搜寻器几个月了,但遇到了巨大的性能,内存和稳定性问题(Heritrix几乎每天都崩溃,并且没有尝试使用JVM参数来限制内存使用的尝试成功)。
根据您在该领域的经验,您将使用哪个搜寻器来提取和解析来自数千个来源的内容?
最佳答案
除非您想帮助改进Heritrix或正处于最前沿,否则我不会将2.x分支(已终止)或3.x(当前开发)用于任何“严重”爬网。
Heritrix 1.14.3是最新的稳定版本,它确实是稳定的,被许多机构用于小型和大型爬网。我习惯对成千上万个域进行爬网,在不到一周的时间内收集了数千万个URL。
3.x分支已经接近稳定版本了,但是即使那样,我还是要稍等一下Internet档案库和其他组织的通用版本,以提高其性能和稳定性。
更新:由于最近有人对此进行了投票,我感到值得一提的是,Heritrix 3.x现在很稳定,并且是从Heritrix开始的人的推荐版本。