我正在使用HtmlCleaner库进行html内容提取。它工作正常,但没有什么限制。

它不能处理特殊字符,例如&pound或引号等。对于e.x。
对于url:http://www.basicelegancefurnishings.co.uk/alaska-3-and-2-seater-sofa-setspan-classukmadespan-p-280.html,在将xpath赋予价格时,它给我“&磅;”。代替£

我们可以在htmlcleaner中设置任何属性来处理此解决方案或任何其他解决方案。

谢谢

吉滕德拉

最佳答案

不,我不相信HtmlCleaner可以做到这一点。但是,您可以使用Apache Commons StringEscapeUtils来“取消转义” html,如下所示:

StringEscapeUtils.unescapeHtml("£679.00");


将产生£679.00

建议您尝试使用JSoup而不是HtmlCleaner。

关于java - 处理特殊实体,例如  ,&磅;在HtmlCleaner中,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4315979/

10-10 16:35