级联是否提供一种将数据集分解为多个块的方法?例如,每个块将包含1000000条记录,或总计1GiB,等等。Every + Buffer存在,但是需要在不需要的GroupBy之前(我也不确定是否打算使用它)以这种方式或具体实现方式)。

最佳答案

您是否安装了Python?

import pandas as pd
for i,chunk in enumerate(pd.read_csv('C:/your_path_here/main.csv', chunksize=1000000)):
    chunk.to_csv('chunk{}.csv'.format(i))

要么
import os
os.getcwd()

csvfile = open('C:/your_path/Book1.csv', 'r').readlines()
filename = 1
for i in range(len(csvfile)):
    if i % 1000000 == 0:
        open(str(filename) + '.csv', 'w+').writelines(csvfile[i:i+1000000])
        filename += 1

关于java - 使用级联将数据集分成多个块,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56822407/

10-13 00:00