自从早上以来,我已经阅读了很多教程。我的问题涉及找到两个文档之间的相似性。我期待为此目的在Java中使用LSA。
我了解了术语文档矩阵的创建,然后将SVD(降维)了。作为结果获得3个矩阵。这听起来可能很愚蠢,但是我已经坚持了很久了。现在,如果我必须查找两个文档之间的相似性,我该怎么办?
最佳答案
使用SVD计算3个矩阵后,您需要计算要比较的两个文档的向量之间的相关性。您可以使用spearman的相关性。
另一种方法是使用余弦距离。
您可以在LSA上找到更多详细信息,这里有一个完整的示例并带有说明。
您可能会搜索LSA的一些Java库。