您好,我正在尝试从aol提取所有锚链接,但是它不起作用。相同的代码与yahoo bing一起使用。问题是什么问题
Document document5 = Jsoup.connect("www.aol.com").get();
Elements links5 = document5.select("a");
for (Element link5 : links5) {
out.println(link5.attr("href"));
}
最佳答案
根据the comments on your previous question:
即使在即时通讯指定协议之后...仅google和aol无法正常工作,也正在与yahoo,bing并询问...。我的项目是实现元搜索引擎....我能够从yahoo提取链接,bing和ask ...但是google和aol不能正常使用...这可能是原因。
他们阻止了您的请求,因为您扮演的机器人/窃贼可能违反了他们的服务条款。他们的网站经常被要求访问,他们不想不必要地将其带宽浪费给实际上只需要响应的一小部分的机器人/抓取者。
使用其公共Web服务API而不是解析整个网站的HTML。对于Google,例如“ Google Custom Search API”。其他搜索引擎提供商也提供类似的Web服务。请注意,这些Web服务不会返回肿的HTML,而是紧凑的JSON或XML数据,使用JSON / XML解析器更容易解析/提取。