我正在使用以下命令来抓取具有788个链接的单个页面:
nutch crawl urls/ -dir crawls -depth 1 -topN 1000
上面的命令只能找到72个网址!这是输出
nutch readdb ./crawls/crawldb/ -stats
:CrawlDb statistics start: ./crawls/crawldb/
Statistics for CrawlDb: ./crawls/crawldb/
TOTAL urls: 72
retry 0: 72
min score: 0.009
avg score: 0.026777778
max score: 1.279
status 1 (db_unfetched): 71
status 2 (db_fetched): 1
CrawlDb statistics: done
我的
regex-urlfilter.txt
具有默认设置,我正在使用Nutch 1.4。任何帮助表示赞赏。
最佳答案
我有一个类似的问题。就我而言,属性http.content.limit
是问题所在。默认值为“ 65536”。如果您的页面较大,它将被截断并且链接可能会丢失。