我在本地模式下运行Apache Nutch 1.12。

我需要编辑种子文件以删除子域并添加一些新域,并希望从头开始重新进行爬网。

问题是,每当我重新启动爬网时,爬网就会从停止它的位置重新开始,该位置位于我删除的子域的中间。

我通过杀死Java进程(kill -9)停止了爬网-我尝试在bin目录中创建一个.STOP文件,但是没有用,所以我使用了kill。

现在,无论何时我重新启动爬网,我都可以从输出中看到它正在重新启 Action 业停止的位置。我用谷歌搜索并且遇到了停止hadoop作业的问题,但是我的服务器上没有任何hadoop文件-唯一引用hadoop的是apache nutch目录中的jar文件。

如何从头开始而不是从上一次停止爬网的地方重新开始爬网?实际上,我想开始全新的爬网。

非常感谢

最佳答案

要从头开始,只需指定其他爬网目录或删除现有的目录即可。

从种子列表中删除条目不会影响crawldb或分段的内容。您可以在不从零重新启动的情况下删除域的方法是在url过滤器中添加一个模式,以使这些URL在更新步骤中从crawldb中删除,或者至少在生成步骤中未选择。

关于apache - Apache Nutch重新启动爬网,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44633297/

10-16 04:02