Jsoup库未解析给定URL的完整html。网址的原始html中缺少某些部分。

有趣的是:
http://facebook.com/search.php?init=s:email&q=somebody@gmail.com&type=users

如果您在Jsoup的官方网站http://try.jsoup.org/中提供了上述网址
它通过提取正确显示了url的确切html,但是使用jsoup库在程序中找不到相同的结果。

这是我的Java代码:

String url="http://facebook.com/search.php?init=s:email&q=somebody@gmail.com&type=users";

Document document = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.69 Safari/537.36").get();

String question =document.toString();
System.out.println(" whole content: "+question);


明确提及的在其官方网站中使用的正确userAgent
但是,结果是,我可以看到原始html代码的70%,但是在中间,我以某种方式找不到几个除法标记,即具有所需数据的标记。

我试过尝试.....没用...为什么文档中缺少几个div标签。

您可以直接将URL放入浏览器中,如果登录到Facebook,则可以看到以下响应:“未找到查询结果。
请检查您的拼写或尝试另一个术语。”这是我在jsoup解析上述URL的html时要查找的内容。

但不幸的是,这部分丢失了。实际上,此响应位于div id中:“#pagelet_search_no_results”。我在解析的html中找不到具有此ID的div。我尝试了jsoup提供的许多方法,但是没有运气。

最佳答案

您还应该设置较大的超时时间,例如:

Document document = Jsoup.connect(url)
.header("Accept-Encoding", "gzip, deflate")
.userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0")
.maxBodySize(0)
.timeout(600000)
.get();

关于java - 无法使用Jsoup解析网址的完整html,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/19422968/

10-12 12:55
查看更多