hadoop - nutch 1.10输入路径不存在/linkdb/current

当我使用以下命令运行nutch 1.10时，假设TestCrawl2以前不存在，需要创建，...

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20

我收到索引错误，声称:

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current

linkdb目录存在，但不包含“当前”目录。该目录归root拥有，因此应该没有权限问题。因为该过程从错误退出，所以linkdb目录包含.locked和.. locked.crc文件。如果我再次运行该命令，这些锁定文件会使它在同一位置退出。删除TestCrawl2目录，冲洗，重复。

请注意，nutch和solr安装本身本身已经在TestCrawl实例中顺利运行了。只是现在我正在尝试遇到问题的新产品。有关解决此问题的任何建议？

最佳答案

好的，好像我遇到了这个问题的一个版本:

https://issues.apache.org/jira/browse/NUTCH-2041

这是由于爬网脚本不知道对我的nutch-site.xml文件的ignore_external_links所做的更改。

我正在尝试爬网多个站点，并希望通过忽略外部链接而让regex-urlfilter.txt单独使用(仅使用+来保持生活简单)。

现在看来，我必须将ignore_external_links更改回false，并为每个URL添加一个正则表达式过滤器。希望我能早日发布1.11版本。看起来好像已经固定在那里了。

关于hadoop - nutch 1.10输入路径不存在/linkdb/current，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/33508720/

Nutch

hadoop - nutch 1.10输入路径不存在/linkdb/current