我需要获取一些链接,这些链接取决于GET请求中发送的Cookie。
因此,当我想使用crawler4j爬行页面时,我需要随它一起发送一些cookie,以获取正确的页面。
这可能吗(我在网上搜索了,但没有找到有用的东西)?还是那里有Java搜寻器可以胜任这项工作?
任何帮助表示赞赏。
最佳答案
看来crawler4j可能不支持Cookie:http://www.webuseragents.com/ua/427106/crawler4j-http-code-google-com-p-crawler4j-
有几种选择:
我会说Nutch和Heritrix是最好的,我会特别强调Nutch,因为Nutch可能是设计得很好地缩放并实际执行大爬虫的仅有的爬虫之一。