我想在PyLucene中编写一个自定义的相似性类,以实现自己的检索模型。

通常,使用Java版本的Lucene,您必须扩展相似类并重写方法。例如:

public class IDFSimilarity extends TFIDFSimilarity {

/** Sole constructor: parameter-free */
public IDFSimilarity() {
}

/** Implemented as <code>overlap / maxOverlap</code>. */
@Override
public float coord(int overlap, int maxOverlap) {
    return overlap / (float) maxOverlap;
}

/** Implemented as <code>1/sqrt(sumOfSquaredWeights)</code>. */
@Override
public float queryNorm(float sumOfSquaredWeights) {
    return (float) (1/Math.sqrt(sumOfSquaredWeights));
}
.
.
etc


但是,PyLucene使用JCC,但我不清楚如何在python脚本中扩展该类。就像这样:

import lucene
from org.apache.lucene.search.similarities import TFIDFSimilarity

class IDFSimilarity (TFIDFSimilarity):
   def __init__(self):
      TFIDFSimilarity.__init__()
   ?
   ?


但我不知道如何进行。我在网上找不到任何示例或文档。

任何的想法?

最佳答案

在原始问题的@JanŠpaček中发表评论,谢谢!

在PyLucene源代码中有一个在Python中定义相似性的示例。

from org.apache.pylucene.search.similarities import PythonClassicSimilarity

class SimpleSimilarity(PythonClassicSimilarity):

    def lengthNorm(self, numTerms):
        return 1.0

    def tf(self, freq):
        return freq

    def sloppyFreq(self, distance):
        return 2.0

    def idf(self, docFreq, numDocs):
        return 1.0

    def idfExplain(self, collectionStats, termStats):
        return Explanation.match(1.0, "inexplicable", [])


单击here查看示例。

关于java - 在PyLucene中实现自定义相似性,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49432252/

10-12 01:19