我需要获取一些链接,这些链接取决于GET请求中发送的Cookie。
因此,当我想使用crawler4j爬行页面时,我需要随它一起发送一些cookie,以获取正确的页面。

这可能吗(我在网上搜索了,但没有找到有用的东西)?还是那里有Java搜寻器可以胜任这项工作?

任何帮助表示赞赏。

最佳答案

看来crawler4j可能不支持Cookie:http://www.webuseragents.com/ua/427106/crawler4j-http-code-google-com-p-crawler4j-

有几种选择:

  • Nutch
  • Heritrix
  • WebSPHINX
  • JSpider
  • WebEater
  • WebLech
  • Arachnid
  • JoBo
  • 网络收获
  • 前履带式
  • Bixo

  • 我会说Nutch和Heritrix是最好的,我会特别强调Nutch,因为Nutch可能是设计得很好地缩放并实际执行大爬虫的仅有的爬虫之一。

    10-06 03:19