目前这让我很烦。
如果字符串包含<br />
,则Jsoup在返回的字符串中包括一个额外的换行符
例如。
String html ="TEST<br />TEST";
Jsoup.clean(html, org.jsoup.safety.Whitelist.basic());
退货
TEST\n<br />TEST
关于如何避免将麻烦的\ n包含在内的任何建议?
最佳答案
您是否尝试过.text();
类中的.ownText();
或Elements
?
//If you want the whole page
String url = "http://www.yourwebsite.com";
Document doc = Jsoup.connect(url).get();
System.out.println(doc.text());
//If you want some specific part of the page
Elements elems = doc.select("query");
for (Element element : elems) {
System.out.println(element.text() + "\n");
System.out.println(element.ownText() + "\n\n");
}
如果每个
element
返回< p>Hello< b> there< /b> now!< /p>
方法
text();
将返回Hello there now!
方法
ownText();
将返回Hello now!
只是为了使其更容易理解:
.text();
将返回您所获得的标签内的整个文本。 ownText();
方法将从标记本身返回文本,而不从其子代返回文本。关于
doc.select("query");
中的查询,您可以在here中搜索所需的任何模式。