java - crawler4j抓取网站无法正常工作

我正在使用crawler4j库对某些网站进行爬网，但是当我两次调用该过程时遇到问题。它仅适用于第一次。第二次没有给出任何错误，但是它什么也不做。

我认为该库正在保存已爬网的网址，这就是为什么我无法调用的原因。

我在这里看到了一些信息，但没有解决方案...

http://code.google.com/p/crawler4j/wiki/FrequentlyAskedQuestions

提前致谢，

冬眠者。

最佳答案

您的“抓取存储文件夹”是在首次写入后写入的，此外，由于无法访问该文件，因此无法自动删除（重新抓取）该文件，因此程序第二次检查该文件并认为所有URL爬行。您应编辑crawler4j以完全关闭对“抓取存储文件夹”的访问。请遵循以下步骤：
https://code.google.com/p/crawler4j/issues/detail?id=157

关于java - crawler4j抓取网站无法正常工作，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/19356109/