我有707列和3947行的数据集。据此,我计算出707x707协方差矩阵,并分别使用numpy.cov和pandas.df.mean进行数组或行均值。

当我使用此协方差矩阵和一组方法尝试使用numpy生成随机多元正常玩具数据集时,我得到了MemoryError。

如何在不出现此错误的情况下生成具有这些规格的如此大的随机数据集?

编辑:

这是我的堆栈跟踪:

Traceback (most recent call last):

  File "<ipython-input-28-701051dd6b16>", line 1, in <module>
    runfile('/project/home17/whb17/Documents/project2/scripts/mltest/covex.py', wdir='/project/home17/whb17/Documents/project2/scripts/mltest')

  File "/project/soft/linux64/anaconda/Anaconda3-5.0.1-Linux-x86_64/lib/python3.6/site-packages/spyder/utils/site/sitecustomize.py", line 705, in runfile
    execfile(filename, namespace)

  File "/project/soft/linux64/anaconda/Anaconda3-5.0.1-Linux-x86_64/lib/python3.6/site-packages/spyder/utils/site/sitecustomize.py", line 102, in execfile
    exec(compile(f.read(), filename, 'exec'), namespace)

  File "/project/home17/whb17/Documents/project2/scripts/mltest/covex.py", line 36, in <module>
    d2_x, d2_y = multivariate_normal(means, X_cov, [n_cols, n_rows], check_valid='ignore').T

  File "mtrand.pyx", line 4538, in mtrand.RandomState.multivariate_normal

MemoryError


编辑2:

这是导致它的代码:

X = pd.read_csv('../../data/mesa/MESA.csv', sep=',', header=None, index_col=0)

n_cols, n_rows = X.shape

means = X.mean(axis=0).tolist()

X_cov = np.cov(X.T)

d2_x, d2_y = multivariate_normal(means, X_cov, [n_cols, n_rows]).T

最佳答案

从代码中,很可能您误解了multivariate_normal

d2_x, d2_y = multivariate_normal(means, X_cov, [n_cols, n_rows]).T


这里的第一和第二参数是均值和协方差。第三个参数是矩阵的形状,该矩阵的每个单元应该是随机矩阵的一个实例。这不是移调成对的东西,几乎可以肯定不是您想要的。

例如,如果X_cov的尺寸为707 X 707,则结果的尺寸为707 X 707 X 707 X n_rows

要生成玩具数据集,您应该使用

multivariate_normal(means, X_cov, n_rows)


与您的原始问题(第一次编辑之前)相比,总体结果应小大约1/1250000。

10-08 19:21