我正在使用以下命令来抓取具有788个链接的单个页面:

nutch crawl urls/ -dir crawls -depth 1 -topN 1000


上面的命令只能找到72个网址!这是输出
nutch readdb ./crawls/crawldb/ -stats

CrawlDb statistics start: ./crawls/crawldb/

Statistics for CrawlDb: ./crawls/crawldb/

TOTAL urls: 72

retry 0:    72

min score:  0.009

avg score:  0.026777778

max score:  1.279

status 1 (db_unfetched):    71

status 2 (db_fetched):  1

CrawlDb statistics: done


我的regex-urlfilter.txt具有默认设置,我正在使用Nutch 1.4。

任何帮助表示赞赏。

最佳答案

我有一个类似的问题。就我而言,属性http.content.limit是问题所在。默认值为“ 65536”。如果您的页面较大,它将被截断并且链接可能会丢失。

07-27 17:12