我想写一小段代码,用jsoup将href中的“ Kategorie”吸引出来。
<a href="/wiki/Kategorie:Herrscher_des_Mittelalters" title="Kategorie:Herrscher des Mittelalters">Herrscher des Mittelalters</a>
在这种情况下,我正在搜索
Herrscher des Mittelalters
。我的代码使用
BufferedReader
读取.txt文件的第一行。 BufferedReader r = new BufferedReader(new InputStreamReader(new FileInputStream(new File(FilePath)), Charset.forName("UTF-8")));
Document doc = Jsoup.parse(r.readLine());
Element elem = doc;
我知道有些命令可以获取href链接,但是我不知道用于搜索href链接中的元素的命令。
有什么建议么?
附加信息:我的.txt文件包含完整的Wikipedia HTML页面。
最佳答案
这应该使您获得来自链接的所有标题。您可以根据需要进一步拆分标题:
Document d = Jsoup.parse("<a href=\"/wiki/Kategorie:Herrscher_des_Mittelalters\" title=\"Kategorie:Herrscher des Mittelalters\">Herrscher des Mittelalters</a>");
Elements links = d.select("a");
Set<String> categories = new HashSet<>();
for (Element script : links) {
String title = script.attr("title");
if (title.length() > 0) {
categories.add(title);
}
}
System.out.println(categories);
关于java - 如何使用jsoup从字符串中提取元素?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40327886/