我想制作一个程序,它将检索一些信息作为URL。
例如,我从下面给出网址
librarything

如何检索“标签”标签下的所有单词,例如


  黑色图书馆幻想Thanquol和Boneripper Thanquol和Bone Ripper战锤?


我正在考虑使用Java,并设计一个数据挖掘包装器,但是我不确定如何开始。谁能给我一些建议?

编辑:
您给了我很好的帮助,但是我想问其他问题。
对于每个标签,当我们按下“数字”按钮时,我们可以看到每个标签已使用了多少次。我也该如何检索该号码?

最佳答案

您可以使用Jsoup之类的HTML解析器。它允许您使用简单的CSS selectors选择感兴趣的HTML元素:

例如。

Document document = Jsoup.connect("http://www.librarything.com/work/9767358/78536487").get();
Elements tags = document.select(".tags .tag a");

for (Element tag : tags) {
    System.out.println(tag.text());
}


哪个打印

Black Library
fantasy
Thanquol & Boneripper
Thanquol and Bone Ripper
Warhammer


请注意,您应该阅读网站的robots.txt-如果有的话,并阅读网站的服务条款-如果有的话-否则您的服务器迟早会被IP禁止。

09-25 22:31