python - 如何减少Scikit-Learn矢量化器的内存使用量？

TFIDFVectorizer占用了太多内存，矢量化470mb 100k文档占用了6gb，如果我们使用2100万个文档，它将无法容纳60gb的RAM。
所以我们选择hashing vectorizer，但仍然需要知道如何分配hashingvectorizer，fit和partial fit什么也做不了，那么如何处理庞大的语料库呢？

最佳答案

我强烈建议您在大型数据集上拟合模型时使用HashingVectorizer。
HashingVectorizer与数据无关，只有来自vectorizer.get_params()的参数才是重要的。因此（un）pickling`hashingvectorizer实例应该非常快。
基于词汇表的矢量器更适合于对小数据集进行探索性分析。