我在 Elasticsearch 中使用了 Metaphone soundex 编码器和“语音 token 过滤器”。

Metaphone 对英语单词很有用。

Soundex 适用于英语和印地语,也许也适用于许多其他语言。

我想知道这些编码器中的哪一个最适合印地语以及其他印度语言(如果可能)?

  • Soundex
  • 变音器
  • double_metaphone
  • 精炼_soundex
  • caverphone1 - 英语(新西兰本地化)
  • caverphone2 - 英语(新西兰本地化)
  • 古龙水 - 德国
  • nysiis - 即兴 Soundex
  • koelnerphonetik - 德语
  • haasephonetik - 德语
  • beider_morse - 英语和多种欧洲语言
  • daitch_mokotoff - 斯拉夫语和意第绪语姓氏

  • 由于 Elasticsearch website 上没有列出我们应该选择哪种编码器的语言。

    还请告诉我您已经使用了哪些编码器以及用于哪种语言。

    最佳答案

    语音编码器是根据单词的发音索引单词的算法。

    对此的解释可在维基百科上找到



    引用:
    上述算法及其子类型的详细信息我们可以在下面的维基百科页面中找到
    1. https://en.wikipedia.org/wiki/Phonetic_algorithm

    其中 SoundEx 最适合印度语
    您可以查看以下资源以获得相同的信息
    1. Phonetic search for Indian languages
    2. https://thottingal.in/blog/2009/07/26/indicsoundex/

    关于elasticsearch - 如何决定在 Elasticsearch "Phonetic Token filter"中使用哪种编码器用于哪种语言?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/60897572/

    10-15 20:22