我有一套文件,我都计算了


词频得分
逆频得分
TF / IDF分数


现在,我需要计算特定查询和文档之间的相似度,该相似度将产生一个分数,该分数将对查询从最高相似度到最低相似度对文档进行排名。

我已经搜索了很多信息,但是我不理解该公式。

来源:http://en.wikipedia.org/wiki/Vector_space_model

谁能指导我?我只需要知道如何从当前的进展中继续前进。

最佳答案

Lucene是一个开源库,可以为您完成所有这些工作。

10-08 15:57