我收集了90年代中期创建的.html文件,其中包含大量的韩语文本。 HTML缺少字符集元数据,因此,现在所有韩语文本现在都无法正确呈现。以下示例将全部使用相同的文本摘录。

在诸如Coda和Text Wrangler之类的文本编辑器中,文本显示为



在中缺少字符集元数据的情况下,浏览器将其呈现为:



将euc-kr元数据添加到

<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">

产生以下内容,这是难以理解的废话(由母语使用者验证):



我已经尝试过使用所有具有历史意义的韩文字符集使用这种方法,但每种方法都产生了类似的不成功结果。我还尝试通过Beautiful Soup解析和升级到UTF-8,但也失败了。

在Emacs中查看文件似乎很有希望,因为它可以显示较低级别的文本编码。以下是相同的文本示例:



如何识别此文本编码并将其升级为UTF-8?

最佳答案

emacs揭示的所有这些八进制代码都少于254(八进制\376),因此看起来像那些旧的Unicode以前的字体之一,它只是使用了自己在ASCII范围内的映射。如果这是正确的,那么您只需要尝试找出它打算使用的字体,找到它,然后自己进行转换即可。

真痛苦许多年前,我对一些流行的Unicode以前的希腊字体做了类似的操作:http://litot.es/unicode-converter/(代码:https://github.com/seanredmond/Encoding-Converter)

关于emacs - 解码90年代以来的韩文文件,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/11073292/

10-12 07:34