我正在处理CSV中的巨大数据集(5,000万行)。我试图对其进行切片并将其另存为 Feather 格式,以便在稍后加载 Feather 格式时节省一些内存。

作为一种解决方法,我将数据分块加载为CSV文件,然后将其合并到一个数据框中。

到目前为止,这是我尝试过的:

df[2000000:4000000].to_feather('name')

我收到以下错误:
ValueError: feather does not support serializing a non-default index for the index; you can .reset_index() to make the index into column(s)

然后,我尝试重置索引,但仍然出现相同的错误。

最佳答案

将所需的数据切片保存到CSV df.to_csv(),再次从CSV加载数据,然后保存为 Feather 格式。这种方法对我有用

07-28 02:12
查看更多