我想写一小段代码,用jsoup将href中的“ Kategorie”吸引出来。

<a href="/wiki/Kategorie:Herrscher_des_Mittelalters" title="Kategorie:Herrscher des Mittelalters">Herrscher des Mittelalters</a>


在这种情况下,我正在搜索Herrscher des Mittelalters

我的代码使用BufferedReader读取.txt文件的第一行。

    BufferedReader r = new BufferedReader(new InputStreamReader(new FileInputStream(new File(FilePath)), Charset.forName("UTF-8")));

    Document doc = Jsoup.parse(r.readLine());
    Element elem = doc;


我知道有些命令可以获取href链接,但是我不知道用于搜索href链接中的元素的命令。

有什么建议么?

附加信息:我的.txt文件包含完整的Wikipedia HTML页面。

最佳答案

这应该使您获得来自链接的所有标题。您可以根据需要进一步拆分标题:

    Document d = Jsoup.parse("<a href=\"/wiki/Kategorie:Herrscher_des_Mittelalters\" title=\"Kategorie:Herrscher des Mittelalters\">Herrscher des Mittelalters</a>");

    Elements links = d.select("a");

    Set<String> categories = new HashSet<>();
    for (Element script : links) {
        String title = script.attr("title");
        if (title.length() > 0) {
            categories.add(title);
        }

    }

    System.out.println(categories);

关于java - 如何使用jsoup从字符串中提取元素?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/40327886/

10-10 07:28