我有一个大约有800万条新闻文章的语料库,我需要以稀疏矩阵的形式获取它们的TFIDF表示形式。我已经能够使用scikit-learn来实现相对较少的样本数量,但是我相信它不能用于如此庞大的数据集,因为它首先将输入矩阵加载到内存中,这是一个昂贵的过程。
谁知道,对于大型数据集,提取TFIDF向量的最佳方法是什么?
最佳答案
Gensim具有高效的tf-idf model,不需要一次将所有内容存储在内存中。
您的语料库只需要是可迭代的,因此不需要一次将整个语料库存储在内存中。
根据评论,make_wiki script在一台笔记本电脑上在Wikipedia上运行约50m。
关于python - 大数据集的TFIDF,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/25145552/