我正在使用Elasticsearch进行研究。我打算使用余弦相似度,但是我注意到它不可用,取而代之的是我们将BM25作为默认评分功能。
有什么理由吗?余弦相似度是否不适用于查询文档?为什么选择BM25作为默认值?
谢谢
最佳答案
长期的Elasticsearch使用TF / IDF算法来查找查询中的相似性。但是以前的数字版本效率更高,已改为BM25。您可以在the documentation中阅读信息。 And good article explains what is elastic search and how to the similarity in ES。
您还可以为elasticsearch编写自定义算法。 Here a good article about how to do。