我有一个文本数据集,在上面训练了gensim w2v模型。现在,我想使用这些向量为数据集中的单词和文档获取tf-idf值。正确的做法是什么?我试图遵循gensim网站上的tutorial

我希望像models.tfidfmodel(model.wv[model.wv.index2word])这样的东西
 但这失败了

File "<ipython-input-229-7946418f8a82>", line 1, in <module> models.tfidfmodel(model.wv[model.wv.index2word])TypeError: 'module' object is not callable

从那以后我想要什么?弓是做到这一点的唯一方法吗?

最佳答案

您链接到模型的教程将获得语料库,即整个文本(或转换后的文本)。

您尝试做的是给模型提供w2v模型学习的字典。

如果你想要的是


  获取我的数据中单词和文档的tf-idf值
  组。


然后,您应该像这样简单地传递它:

tfidf = models.TfidfModel(corpus)


如果您真正想要的是在转换后的语料库上运行TF-IDF模型,那么您应该首先使用w2v转换该语料库,然后将转换后的语料库传递给tfidfmodel。



请注意,由于tfidf模型只是计算单词频率,因此给它转换后的语料,而不是原始语料,将无济于事。

关于python-3.x - 如何在gensim上从w2v获取tf-id,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41960099/

10-13 01:22