我有一个.csv文件,包含多个列长度的行。

import pandas as pd
df = pd.read_csv(infile, header=None)

返回
ParserError: Error tokenizing data. C error: Expected 6 fields in line 8, saw 8

错误。我知道我可以用
names=my_cols

在read_csv调用中的选项,但肯定有比这更“pythonic”的东西吗??而且,这不是一个重复的问题,因为
error_bad_lines=False

导致跳过行(这是不需要的)。.csv看起来像:
Anne,Beth,Caroline,Ernie,Frank,Hannah
Beth,Caroline,David,Ernie
Caroline,Hannah
David,,Anne,Beth,Caroline,Ernie
Ernie,Anne,Beth,Frank,George
Frank,Anne,Caroline,Hannah
George,
Hannah,Anne,Beth,Caroline,David,Ernie,Frank,George

最佳答案

好吧,这个相关问题给了我一些启发:Pandas variable numbers of columns to binary matrix
因此,请在csv中读取,但将分隔符覆盖到选项卡,这样它就不会尝试拆分名称:

In[7]:
import pandas as pd
import io
t="""Anne,Beth,Caroline,Ernie,Frank,Hannah
Beth,Caroline,David,Ernie
Caroline,Hannah
David,,Anne,Beth,Caroline,Ernie
Ernie,Anne,Beth,Frank,George
Frank,Anne,Caroline,Hannah
George,
Hannah,Anne,Beth,Caroline,David,Ernie,Frank,George"""
df = pd.read_csv(io.StringIO(t), sep='\t', header=None)
df

Out[7]:
                                                   0
0              Anne,Beth,Caroline,Ernie,Frank,Hannah
1                          Beth,Caroline,David,Ernie
2                                    Caroline,Hannah
3                    David,,Anne,Beth,Caroline,Ernie
4                       Ernie,Anne,Beth,Frank,George
5                         Frank,Anne,Caroline,Hannah
6                                            George,
7  Hannah,Anne,Beth,Caroline,David,Ernie,Frank,Ge...

我们现在可以使用str.splitexpand=True将名称扩展到它们自己的列中:
In[8]:
df[0].str.split(',', expand=True)

Out[8]:
          0         1         2         3         4       5      6       7
0      Anne      Beth  Caroline     Ernie     Frank  Hannah   None    None
1      Beth  Caroline     David     Ernie      None    None   None    None
2  Caroline    Hannah      None      None      None    None   None    None
3     David                Anne      Beth  Caroline   Ernie   None    None
4     Ernie      Anne      Beth     Frank    George    None   None    None
5     Frank      Anne  Caroline    Hannah      None    None   None    None
6    George                None      None      None    None   None    None
7    Hannah      Anne      Beth  Caroline     David   Ernie  Frank  George

为了清楚起见,将read_csv行修改为:
df = pd.read_csv(infile, header=None, sep='\t')

然后按上述步骤执行str.split

关于python - 在Python和Pandas中读入.csv的一种非常通用的方法是什么?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/46644603/

10-13 09:31