问题: OutOfMemory 错误显示在对 800 万个特征应用 PCA 时。

这是我的代码片段:-

from sklearn.decomposition import PCA as sklearnPCA
sklearn_pca = sklearnPCA(n_components=10000)
pca_tfidf_sklearn = sklearn_pca.fit(traindata_tfidf.toarray())

我想将 PCA/降维技术应用于文本提取的特征(使用 tf-idf)。目前我有大约 800 万个这样的功能,我想减少这些功能并对我使用 MultiNomialNB 的文档进行分类。

由于 OutOfMemory 错误,我被卡住了。

最佳答案

我想, traindata_tfidf 实际上是一种稀疏形式。尝试使用 scipy sparse 格式之一而不是数组。另请查看 SparsePCA 方法,如果没有帮助,请使用 MiniBatchSparsePCA

关于python - sklearn : How to apply dimensionality reduction on huge data set?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34783660/

10-12 01:30