我正在使用HtmlCleaner库进行html内容提取。它工作正常,但没有什么限制。
它不能处理特殊字符,例如&pound或引号等。对于e.x。
对于url:http://www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-classukmadespan-p-280.html,在将xpath赋予价格时,它给我“&磅;”。代替£
我们可以在htmlcleaner中设置任何属性来处理此解决方案或任何其他解决方案。
谢谢
吉滕德拉
最佳答案
不,我不相信HtmlCleaner可以做到这一点。但是,您可以使用Apache Commons StringEscapeUtils来“取消转义” html,如下所示:
StringEscapeUtils.unescapeHtml("£679.00");
将产生
£679.00
。建议您尝试使用JSoup而不是HtmlCleaner。
关于java - 处理特殊实体,例如  ,&磅;在HtmlCleaner中,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4315979/