我知道gensim中的word2vec可以计算单词之间的相似度。但现在我想用TF-IDF或LSA和gensim计算单词相似度。怎么做?
注意:使用LSA和gensim计算文档相似度很容易:http://radimrehurek.com/gensim/wiki.html
最佳答案
TF-IDF是一种加权方案,因此it's not an alternative to LSA.
把你的问题想象成一个由n个文档组成的m个词的矩阵。矩阵的每个条目Aij表示文档“j”中术语“i”的权重。这里是你使用TF-IDF的地方。知道在矩阵的每个单元中放什么。
然后,如果它适合您的应用,您可以使用LSA减少矩阵的维数。
我希望这能解决一点问题。
关于python - 如何使用gensim使用TF-IDF或LSA计算单词相似度?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/35981178/