本文介绍了如何在Java中将HTML转换为UTF-8的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有一个ASCII字符串,带有HTML实体,如:

 & agrave; 
& uml;
& ccedil;

我需要这个String没有这些实体并将它们转换为UTF-8字符。
有什么简单的方法,在java中做到这一点?



其中:

  Clazz.method(a& agrave;,UTF-8)

返回aà



或类似的内容? 看看。显然它理解HTML 4中定义的所有字符实体。


I have an ASCII String, with HTML entities, like:

 à
 ¨
 ç

I need this String to be without those entities and convert them into UTF-8 chars.Is there any easy way, in java to do that?

Where:

 Clazz.method("aà","UTF-8")

returns "aà"

or something like that?

解决方案

Take a look at org.apache.commons.lang.StringEscapeUtils.unescapeHtml(...). Apparently it understands all character entities defined in HTML 4.

这篇关于如何在Java中将HTML转换为UTF-8的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

08-27 16:58
查看更多