自从早上以来,我已经阅读了很多教程。我的问题涉及找到两个文档之间的相似性。我期待为此目的在Java中使用LSA。

我了解了术语文档矩阵的创建,然后将SVD(降维)了。作为结果获得3个矩阵。这听起来可能很愚蠢,但是我已经坚持了很久了。现在,如果我必须查找两个文档之间的相似性,我该怎么办?

最佳答案

使用SVD计算3个矩阵后,您需要计算要比较的两个文档的向量之间的相关性。您可以使用spearman的相关性。
另一种方法是使用余弦距离。

您可以在LSA上找到更多详细信息,这里有一个完整的示例并带有说明。

您可能会搜索LSA的一些Java库。

10-07 13:10