我正在尝试使用pd.read_csv
加载csv文件,但出现以下unicode错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte
最佳答案
不幸的是,CSV文件没有信令字符编码的内置方法。read_csv
默认会猜测CSV文件中的字节代表以UTF-8编码方式编码的文本。如果文件使用的是其他编码,导致字节的大小恰巧不是有效的UTF-8序列,则结果为UnicodeDecodeError
。 (如果运气好的话,它们也恰好是有效的UTF-8,则不会收到该错误,但是对于非ASCII字符,您仍然会得到错误的输入,这实际上会更糟。)
您可以自行决定播放哪种编码,这需要对编码的来源有一定的了解(或猜测)。例如,如果它是在西方安装的Windows上来自MS Excel,则可能是Windows代码页1252,您可以使用以下代码阅读它:
pd.read_csv('../filename.csv', encoding='cp1252')
关于pandas - UnicodeDecodeError : 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/45492678/