我将JSoup用于我的网络爬虫

Connection con = Jsoup.connect("http://t.co/uySIPVNfgP");
Document doc = con.get();
String u = doc.baseUri();


上面给出了重定向的URL作为基本uri

但是,用户代理设置如下:

con.userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6");


与上述不遵循重定向。

据我了解,没有用户代理,某些网站不允许其内容被抓取。

如何解决呢?

最佳答案

参见Jsoup docs about connection。您可以在其中找到followRedirects(boolean)方法:

Connection con = Jsoup.connect("http://t.co/uySIPVNfgP")
    .userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6")
    .followRedirects(false);


播放参数,直到获得所需的结果。

关于java - 带有userAgent的JSoup防止重定向,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32892483/

10-12 06:31