我已经在Win10上安装了Python 2.7.13,pip和beautifulsoup。我想将带有html实体的大文件转换为Unicode字符,但不确定如何处理(我对Python不太了解)。文件内容如下所示:

<b>&#947;&#941;&#961;&#969;&#957;</b>, <i>&#959;&#957;&#964;&#959;&#962;, &#8001;</i>, Wurzel <i>&#915;&#917;&#929;</i>, verwandt mit <i>&#947;&#941;&#961;&#945;&#962;, &#947;&#949;&#961;&#945;&#961;&#972;&#962;, &#947;&#949;&#961;&#945;&#953;&#972;&#962;</i>


我可以使用EmEditor来做一些小事(使用“编辑”>“编码/解码选择”->对Unicode的HTML / XML字符引用),但是它太慢了,无法处理大文件转换。

我很乐意为此提供任何(离线)解决方案。

最佳答案

这是html编码,请尝试以下方法:

from HTMLParser import HTMLParser

f = open("myfile.txt")
h = HTMLParser()
new_file_content = h.unescape(f.read())
new_file = open("newfile.txt", 'w')
new_file.write(new_file_content)

10-08 04:22