我正在尝试使用pd.read_csv加载csv文件,但出现以下unicode错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte

最佳答案

不幸的是,CSV文件没有信令字符编码的内置方法。
read_csv默认会猜测CSV文件中的字节代表以UTF-8编码方式编码的文本。如果文件使用的是其他编码,导致字节的大小恰巧不是有效的UTF-8序列,则结果为UnicodeDecodeError。 (如果运气好的话,它们也恰好是有效的UTF-8,则不会收到该错误,但是对于非ASCII字符,您仍然会得到错误的输入,这实际上会更糟。)

您可以自行决定播放哪种编码,这需要对编码的来源有一定的了解(或猜测)。例如,如果它是在西方安装的Windows上来自MS Excel,则可能是Windows代码页1252,您可以使用以下代码阅读它:

pd.read_csv('../filename.csv', encoding='cp1252')

关于pandas - UnicodeDecodeError : 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/45492678/

10-12 00:32
查看更多