我不清楚LDAModel.topicsMatrix()
的输出。
我想我理解LDA的概念,并且每个主题都由一个分布在各个术语上的分布来表示。
很明显(我认为):
每个主题的句子中单词的可能性最高的总和,表示此tweet属于某个主题的证据。
对于n个主题,LDAModel.describeTopics()
的输出是n乘以m矩阵,其中m表示词汇的大小。此矩阵中的值小于或等于1。
但是在describeTopics()
中,我不知道我在看什么。阅读文档时也是如此。
该矩阵是m乘以n的矩阵,维数已经改变,并且该矩阵中的值大于零(因此可以取不是概率值的值2)。这些价值观是什么?这个词在题目中的出现也许?
如何使用这些值来计算句子到主题的距离?
最佳答案
我认为矩阵是m*n m是单词数,n是主题数
关于python - Spark MLLIB LDA topicsmatrix的输出是什么?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/38210820/