当我使用以下命令运行nutch 1.10时,假设TestCrawl2以前不存在,需要创建,...

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20

我收到索引错误,声称:
Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current

linkdb目录存在,但不包含“当前”目录。该目录归root拥有,因此应该没有权限问题。因为该过程从错误退出,所以linkdb目录包含.locked和.. locked.crc文件。如果我再次运行该命令,这些锁定文件会使它在同一位置退出。删除TestCrawl2目录,冲洗,重复。

请注意,nutch和solr安装本身本身已经在TestCrawl实例中顺利运行了。只是现在我正在尝试遇到问题的新产品。有关解决此问题的任何建议?

最佳答案

好的,好像我遇到了这个问题的一个版本:

https://issues.apache.org/jira/browse/NUTCH-2041

这是由于爬网脚本不知道对我的nutch-site.xml文件的ignore_external_links所做的更改。

我正在尝试爬网多个站点,并希望通过忽略外部链接而让regex-urlfilter.txt单独使用(仅使用+来保持生活简单)。

现在看来,我必须将ignore_external_links更改回false,并为每个URL添加一个正则表达式过滤器。希望我能早日发布1.11版本。看起来好像已经固定在那里了。

关于hadoop - nutch 1.10输入路径不存在/linkdb/current,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/33508720/

10-13 09:10