我遇到了这个非常大的工具,然后深入研究了一些不太漂亮的文档和/或购买了ebook:我只是想问一下:

Apache Nutch如何处理JavaScript重站点,以及如何获取页面?
我的意思是:它如何克服IP禁令?

最佳答案

Javascript-有一个基于Selenium的协议(protocol)实现,可以帮助JS网站

Nutch基于Hadoop,因此是批处理驱动的。如果您使用基于流的爬网框架,那么StormCrawler将是一个更好的工具。

关于java - Apache Nutch津贴,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36787111/

10-15 13:29