我有一套文件,我都计算了
词频得分
逆频得分
TF / IDF分数
现在,我需要计算特定查询和文档之间的相似度,该相似度将产生一个分数,该分数将对查询从最高相似度到最低相似度对文档进行排名。
我已经搜索了很多信息,但是我不理解该公式。
来源:http://en.wikipedia.org/wiki/Vector_space_model
谁能指导我?我只需要知道如何从当前的进展中继续前进。
最佳答案
Lucene是一个开源库,可以为您完成所有这些工作。
我有一套文件,我都计算了
词频得分
逆频得分
TF / IDF分数
现在,我需要计算特定查询和文档之间的相似度,该相似度将产生一个分数,该分数将对查询从最高相似度到最低相似度对文档进行排名。
我已经搜索了很多信息,但是我不理解该公式。
来源:http://en.wikipedia.org/wiki/Vector_space_model
谁能指导我?我只需要知道如何从当前的进展中继续前进。
最佳答案
Lucene是一个开源库,可以为您完成所有这些工作。