我想阅读book-crossing dataset表:BX-Books。使用熊猫。
当我写:

  #load book informations dataset
books = pd.read_csv("BX-CSV-Dump/BX-Books.csv",sep=';')


我收到一个错误:


  CParserError:标记数据时出错。 C错误:在6452行中应有8个字段,看到9


如何纠正呢?我尝试使用'\ t'作为分隔符,但是它也不起作用,在这种情况下,我将一列中的所有列都用“ ;”分隔。

最佳答案

该问题是由以下字符串引起的:

"Peterman Rides Again: Adventures Continue with the Real \"J. Peterman\" Through Life & the Catalog Business"


注意:请注意在&,包含;\"J. Peterman\",包含引号

所以试试这个:

In [34]: df = pd.read_csv(fn, sep=';', escapechar='\\', encoding='CP1252',
                          low_memory=False)

In [35]: df.shape
Out[35]: (271379, 8)

10-05 22:58
查看更多