标记数据时出错. C错误:内存不足的 pandas python，大文件csv

本文介绍了标记数据时出错. C错误:内存不足的 pandas python，大文件csv的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我有一个3.5英寸的大型csv文件，我想用熊猫阅读它.

I have a large csv file of 3.5 go and I want to read it using pandas.

这是我的代码:

import pandas as pd
tp = pd.read_csv('train_2011_2012_2013.csv', sep=';', iterator=True, chunksize=20000000, low_memory = False)
df = pd.concat(tp, ignore_index=True)

我收到此错误:

pandas/parser.pyx in pandas.parser.TextReader.read (pandas/parser.c:8771)()

pandas/parser.pyx in pandas.parser.TextReader._read_rows (pandas/parser.c:9731)()

pandas/parser.pyx in pandas.parser.TextReader._tokenize_rows (pandas/parser.c:9602)()

pandas/parser.pyx in pandas.parser.raise_parser_error (pandas/parser.c:23325)()

CParserError: Error tokenizing data. C error: out of

我的公羊的容量是8 Go.

The capacity of my ram is 8 Go.

推荐答案

尝试以下操作:

mylist = []

for chunk in  pd.read_csv('train_2011_2012_2013.csv', sep=';', chunksize=20000):
    mylist.append(chunk)

big_data = pd.concat(mylist, axis= 0)
del mylist

这篇关于标记数据时出错. C错误:内存不足的 pandas python，大文件csv的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持！