emacs - 解码90年代以来的韩文文件

我收集了90年代中期创建的.html文件，其中包含大量的韩语文本。 HTML缺少字符集元数据，因此，现在所有韩语文本现在都无法正确呈现。以下示例将全部使用相同的文本摘录。

在诸如Coda和Text Wrangler之类的文本编辑器中，文本显示为

在中缺少字符集元数据的情况下，浏览器将其呈现为:

将euc-kr元数据添加到

<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">

产生以下内容，这是难以理解的废话(由母语使用者验证):

我已经尝试过使用所有具有历史意义的韩文字符集使用这种方法，但每种方法都产生了类似的不成功结果。我还尝试通过Beautiful Soup解析和升级到UTF-8，但也失败了。

在Emacs中查看文件似乎很有希望，因为它可以显示较低级别的文本编码。以下是相同的文本示例:

如何识别此文本编码并将其升级为UTF-8？

最佳答案

emacs揭示的所有这些八进制代码都少于254(八进制\376)，因此看起来像那些旧的Unicode以前的字体之一，它只是使用了自己在ASCII范围内的映射。如果这是正确的，那么您只需要尝试找出它打算使用的字体，找到它，然后自己进行转换即可。

真痛苦许多年前，我对一些流行的Unicode以前的希腊字体做了类似的操作:http://litot.es/unicode-converter/(代码:https://github.com/seanredmond/Encoding-Converter)

关于emacs - 解码90年代以来的韩文文件，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/11073292/