我有两个要合并的CSV文件。对于大熊猫,我会使用:


  pd.merge(df1,df2,how ='左',left_on ='ST_LOGINID',right_on ='LOGINID')


但是,熊猫会在执行此操作时耗尽内存(“ MemoryError:”),尽管在返回错误之前,我的RAM使用量从4 GB中的1.9 GB仅为2.2 GB。

因此,我正在寻找以下任一解决方案:
1)一种执行这种合并/联接操作而不将文件加载到内存的方法
2)一种允许熊猫使用更多RAM的方法,因为似乎有足够的可用内存。

最佳答案

尝试csvkit

首先安装:

pip install csvkit


然后:

csvjoin -c "ST_LOGINID, LOGINID" --outer file1.csv file2.csv

关于python - 合并两个没有 Pandas 的CSV,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26877128/

10-14 18:48
查看更多