python - 大数据集的TFIDF

我有一个大约有800万条新闻文章的语料库，我需要以稀疏矩阵的形式获取它们的TFIDF表示形式。我已经能够使用scikit-learn来实现相对较少的样本数量，但是我相信它不能用于如此庞大的数据集，因为它首先将输入矩阵加载到内存中，这是一个昂贵的过程。

谁知道，对于大型数据集，提取TFIDF向量的最佳方法是什么？

最佳答案

Gensim具有高效的tf-idf model，不需要一次将所有内容存储在内存中。

您的语料库只需要是可迭代的，因此不需要一次将整个语料库存储在内存中。

根据评论，make_wiki script在一台笔记本电脑上在Wikipedia上运行约50m。

关于python - 大数据集的TFIDF，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/25145552/