我有一个文本数据集,在上面训练了gensim
w2v模型。现在,我想使用这些向量为数据集中的单词和文档获取tf-idf值。正确的做法是什么?我试图遵循gensim网站上的tutorial。
我希望像models.tfidfmodel(model.wv[model.wv.index2word])
这样的东西
但这失败了File "<ipython-input-229-7946418f8a82>", line 1, in <module> models.tfidfmodel(model.wv[model.wv.index2word])TypeError: 'module' object is not callable
从那以后我想要什么?弓是做到这一点的唯一方法吗?
最佳答案
您链接到模型的教程将获得语料库,即整个文本(或转换后的文本)。
您尝试做的是给模型提供w2v模型学习的字典。
如果你想要的是
获取我的数据中单词和文档的tf-idf值
组。
然后,您应该像这样简单地传递它:
tfidf = models.TfidfModel(corpus)
如果您真正想要的是在转换后的语料库上运行TF-IDF模型,那么您应该首先使用w2v转换该语料库,然后将转换后的语料库传递给tfidfmodel。
请注意,由于tfidf模型只是计算单词频率,因此给它转换后的语料,而不是原始语料,将无济于事。
关于python-3.x - 如何在gensim上从w2v获取tf-id,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41960099/