我有这个HTML块:

<div class="singolo-contenuto link_azure">
<p>I'm a TEXTXXXXXXXXXXXXXXXX<p>
<a href="http://example.com">Name of URL</a></p></p>
<ul class="list_attachments"><li><a
href="DON'T TOUCH"><img src='/img/fileicons/file.png' alt='file'/> TITLE</a></li></ul>
</div>
<div class="clear"></div>

事实上,我带着短信:
 document.select(".singolo-contenuto").text();

我又想起:
“我是URL的textxxxxxxxxxxxxxx名称”。不可能得到“我是一个textxxxxxxxxxxhttp://example.comURL的名称”吗?
不是所有的页面都是一样的。
我只确定文本和href将在“singolo contenuto link_azure”类中。

最佳答案

您可以根据需要用文本替换所有链接,然后调用.text()
伪代码:

for (Element elem : document.select(".singolo-contenuto a")) {
    if(elem.parents().hasClass("list_attachments")) continue;
    String href = elem.attr("href");
    String text = elem.text();
    elem.replaceWith(new TextNode(href + " " + text, ""));
}
String result = document.select(".singolo-contenuto").text();

关于java - Jsoup:获取文本和网址,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/30464155/

10-09 21:26
查看更多