我有一个使用MALLET训练的LDA主题模型,但是我想计算两个文档之间的余弦相似度以获得相似度,但是我不确定我要计算MALLET输出的哪个文件的余弦。

我的余弦相似度函数工作正常,但不确定我在MALLET中进行比较。

任何帮助,将不胜感激!

最佳答案

每个文档将由其主题构成来表示,因此您必须进行比较。使用--output-doc-topics参数以获取所需的文件。

行是文档,列是文档中每个主题的比例。在当前版本(2.0.8)中,列按主题ID升序排序-否则,它们从最高概率到最低概率进行排序。

除了余弦相似度之外,您还应该考虑其他指标,例如(对称)Kullback-Leibler散度或Hellinger距离。

10-06 01:46