我正在使用crawler4j库对某些网站进行爬网,但是当我两次调用该过程时遇到问题。它仅适用于第一次。第二次没有给出任何错误,但是它什么也不做。
我认为该库正在保存已爬网的网址,这就是为什么我无法调用的原因。
我在这里看到了一些信息,但没有解决方案...
http://code.google.com/p/crawler4j/wiki/FrequentlyAskedQuestions
提前致谢,
冬眠者。
最佳答案
您的“抓取存储文件夹”是在首次写入后写入的,此外,由于无法访问该文件,因此无法自动删除(重新抓取)该文件,因此程序第二次检查该文件并认为所有URL爬行。您应编辑crawler4j以完全关闭对“抓取存储文件夹”的访问。请遵循以下步骤:
https://code.google.com/p/crawler4j/issues/detail?id=157
关于java - crawler4j抓取网站无法正常工作,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/19356109/