Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。












想要改善这个问题吗?更新问题,以便将其作为on-topic用于堆栈溢出。

7年前关闭。



Improve this question




我使用tf/idf来计算两个文档之间的余弦相似度。它有一些局限性,并且不能很好地执行。

我寻找了LDA(潜在狄利克雷分配)来计算文档相似度。我不知道
关于这一点。我找不到太多有关我的问题的东西。

能否请您提供与我的问题有关的任何教程?还是可以给我一些建议,我如何使用LDA来完成这项任务???

谢谢

P.S:还有没有可用的源代码来使用LDA执行此类任务?

最佳答案

您看过Lucene和Mahout吗?

这可能很有用-与Lucene和Mahout一起使用Latent Dirichlet Allocation

关于java - 文件相似度,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/2277787/

10-11 04:07