我有两个要合并的CSV文件。对于大熊猫,我会使用:
pd.merge(df1,df2,how ='左',left_on ='ST_LOGINID',right_on ='LOGINID')
但是,熊猫会在执行此操作时耗尽内存(“ MemoryError:”),尽管在返回错误之前,我的RAM使用量从4 GB中的1.9 GB仅为2.2 GB。
因此,我正在寻找以下任一解决方案:
1)一种执行这种合并/联接操作而不将文件加载到内存的方法
2)一种允许熊猫使用更多RAM的方法,因为似乎有足够的可用内存。
最佳答案
尝试csvkit:
首先安装:
pip install csvkit
然后:
csvjoin -c "ST_LOGINID, LOGINID" --outer file1.csv file2.csv
关于python - 合并两个没有 Pandas 的CSV,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26877128/