如果我理解正确,您将无法将nutch 1.8和1.9作为hadoop作业运行,因为这些版本没有Crawl类,该类充当所有爬网步骤的包装。这意味着您不能在hadoop调用中指定一个类来运行整个作业。在螺母1.7中,它曾经是org.apache.nutch.crawl.Crawl类。

我想念什么吗?有人想办法解决这个问题吗?

最佳答案

您的理解是错误的。您应该使用脚本bin / crawl。在每个步骤中,您应该看到应该调用的相应类(以防您想要在爬网脚本之外使用它)。另外,据我所知,您引用的类(class)已被弃用。

09-26 20:38