我是使用Nutch的新手,我想抓取我输入的所有种子列表。
首先:我使用了脚本:
bin / crawl -i -D elastic.server.url = http://localhost:9200/index_name/网址ksu_Crawldb / 30
配备:2个CPU和7.5 GB内存
但是两天后,它只获取了63500个文档,而CPU仅占用了50%的时间,而不是全时使用。
我想知道,如何在短时间内获取最多的文档。
第二:topN,深度和回合有什么区别?
谢谢你的帮助。
最佳答案
我最近在Nutch上发布了一些benchmarks,其中解释了为什么不连续最大地使用资源。基本上,Apache Nutch基于Hadoop,因此是批处理驱动的:不同的操作是连续进行的。另请参见this Q&A。
可以通过多种方式来调整性能,但是关键因素只是您要从中获取主机的多样性和礼貌设置。
topN是根据得分选择要提取的URL数量
深度是从种子到特定URL的出站链接数
rounds是获取/解析/更新的迭代次数
深度和圆度通常相同,但不一定
关于performance - Nutch 1.12和Elasticsearch 1.4.1性能需求,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41809983/