你好
我想从国外源中检索基于文本的utf8数据,其中包含特殊字符,例如u"ıöüç"
,而我想将它们标准化为英语,例如"ıöüç"
-> "iouc"
。实现这一目标的最佳方法是什么?
最佳答案
我建议使用Unidecode module:
>>> from unidecode import unidecode
>>> unidecode(u'ıöüç')
'iouc'
请注意如何为它提供一个unicode字符串,并输出一个字节字符串。保证输出为ASCII。
你好
我想从国外源中检索基于文本的utf8数据,其中包含特殊字符,例如u"ıöüç"
,而我想将它们标准化为英语,例如"ıöüç"
-> "iouc"
。实现这一目标的最佳方法是什么?
最佳答案
我建议使用Unidecode module:
>>> from unidecode import unidecode
>>> unidecode(u'ıöüç')
'iouc'