我试图在 bin / crawl 脚本中提供自定义选项,但遇到了问题。我给了一个自定义配置以忽略我的抓取命令中的外部出站,例如:

bin / crawl -i -D elastic.index = test -D db.ignore.external.links = true urls / CrawlTest / 3

但这是行不通的。然后,我在nutch-site.xml中设置此属性,然后它开始工作。

然后,我尝试设置一个自定义配置,以将数据索引到特定的 flex 索引,而不是在bin / crawl中的nutch-site.xml中作为Java选项给出的索引。令我惊讶的是它正在工作。
我使用过的命令:

bin / crawl -i -D elastic.index = test urls / CrawlTest / 3

所以我想知道为什么我的第一个命令不起作用?我错过了什么吗?请帮忙。

最佳答案

通过进一步的研究,我得到了答案。第一个命令不起作用,因为hadoop不会将其检测为参数。应该从nutch config itselves中读取。

关于elasticsearch - Nuct爬网脚本中的自定义选项不起作用,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39768621/

10-11 11:36