在处理微信的编码时经常会很头疼,因为它的数据有时候是 utf-8 有时候是 ISO-8859-1




使用 chardet 模块可以判断字符的编码

1
2
3
4
5
6
>>> import chardet
>>> chardet.detect('哈哈'.encode())
{'encoding': 'utf-8', 'confidence': 0.7525, 'language': ''}
>>> chardet.detect('哈哈'.encode('GB2312'))
{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}
>>>
03-17 03:08