我有一个使用MALLET训练的LDA主题模型,但是我想计算两个文档之间的余弦相似度以获得相似度,但是我不确定我要计算MALLET输出的哪个文件的余弦。
我的余弦相似度函数工作正常,但不确定我在MALLET中进行比较。
任何帮助,将不胜感激!
最佳答案
每个文档将由其主题构成来表示,因此您必须进行比较。使用--output-doc-topics
参数以获取所需的文件。
行是文档,列是文档中每个主题的比例。在当前版本(2.0.8)中,列按主题ID升序排序-否则,它们从最高概率到最低概率进行排序。
除了余弦相似度之外,您还应该考虑其他指标,例如(对称)Kullback-Leibler散度或Hellinger距离。