我将JSoup用于我的网络爬虫
Connection con = Jsoup.connect("http://t.co/uySIPVNfgP");
Document doc = con.get();
String u = doc.baseUri();
上面给出了重定向的URL作为基本uri
但是,用户代理设置如下:
con.userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6");
与上述不遵循重定向。
据我了解,没有用户代理,某些网站不允许其内容被抓取。
如何解决呢?
最佳答案
参见Jsoup docs about connection。您可以在其中找到followRedirects(boolean)方法:
Connection con = Jsoup.connect("http://t.co/uySIPVNfgP")
.userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6")
.followRedirects(false);
播放参数,直到获得所需的结果。
关于java - 带有userAgent的JSoup防止重定向,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32892483/