我正在将大型csv文件读入 Pandas ,其中一些带有成千上万个字符的String列。是否有任何快速的方法来限制列的宽度,即仅保留前100个字符?

最佳答案

如果您可以将整个内容读入内存,则可以使用str方法进行矢量操作:

>>> df = pd.read_csv("toolong.csv")
>>> df
   a                       b  c
0  1  1256378916212378918293  2

[1 rows x 3 columns]
>>> df["b"] = df["b"].str[:10]
>>> df
   a           b  c
0  1  1256378916  2

[1 rows x 3 columns]

另请注意,您可以使用
>>> df["b"].str.len()
0    10
Name: b, dtype: int64

我本来是想知道
>>> pd.read_csv("toolong.csv", converters={"b": lambda x: x[:5]})
   a      b  c
0  1  12563  2

[1 rows x 3 columns]

会更好,但我实际上不知道转换器是逐行调用还是在整个列上调用。

关于python - 截断 Pandas 的列宽,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/22792740/

10-12 16:53
查看更多