所以我一直都被unicode和utf-8所困扰,因为我有一个脚本可以从网络上获取图像及其标题。效果很好,除非标题带有特殊字符(例如Jökulsárlón)。

它以unicode的形式出现:

J\\xc3\\xb6kuls\\xc3\\xa1rl\\xc3\\xb3n


因此,我想要一种将字符串转换为纯文本的方法-是将其转换为最接近的“普通”字母(如普通o而不是ö)还是打印那些实际符号(而不是\ xc3等),我已经尝试了十亿的方式不同,但是我一直在阅读的许多内容都无法在python 3中为我工作。

提前致谢

最佳答案

确实是UTF-8,但它们是字节:

>>> b = b'J\xc3\xb6kuls\xc3\xa1rl\xc3\xb3n'
>>> b
b'J\xc3\xb6kuls\xc3\xa1rl\xc3\xb3n'
>>> b.decode('utf-8')
'Jökulsárlón'


因为这是Python 3.x,所以这是Unicode字符串。

关于python - 在python 3中将utf-8编码的字符串转换为纯文本,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26865276/

10-12 20:01