TFIDFVectorizer占用了太多内存,矢量化470mb 100k文档占用了6gb,如果我们使用2100万个文档,它将无法容纳60gb的RAM。
所以我们选择hashing vectorizer,但仍然需要知道如何分配hashingvectorizer,fit和partial fit什么也做不了,那么如何处理庞大的语料库呢?
最佳答案
我强烈建议您在大型数据集上拟合模型时使用HashingVectorizer。HashingVectorizer
与数据无关,只有来自vectorizer.get_params()
的参数才是重要的。因此(un)pickling`hashingvectorizer实例应该非常快。
基于词汇表的矢量器更适合于对小数据集进行探索性分析。