我需要对elasticsearch做一个正则表达式来过滤一些数据。
我过滤的字段是人的名字。数据的格式总是不正确的(有时没有名字,有时姓氏后跟一个句点或逗号或“逗号+名字”或“点+名字” ..)。

例如,使用“bouchard”,我得到以下匹配:

 "bouchard", "bouchard, m.", "bouchard, j.", "bouchard j.p.", "bouchard. j.p."

我还需要排除以相同前缀开头的名称,例如“bouchardat”。

我尝试了许多正则表达式,最后发现排除可能会产生更好的结果:
   "query" :  { "regexp" : {
                    "RECORDEDBY" : "bouchard([^a-z].*)"
    }}

这不起作用,因为它返回“bouchard,m。”,“bouchard,j。”,“bouchard j.p.”但不是“bouchard。j.p.”而不是“bouchard”。

我用+和。*尝试了一些正则表达式,但是它们不起作用。
( "bouchard([^a-z].*.*)" "bouchard([^a-z]*+.*)")

为了明确起见,我想允许:
bouchard
bouchard, m.
bouchard, j.
bouchard j.p.
bouchard. j.p.

我想排除
bouchardat

欢迎任何建议。

最佳答案

在这种情况下,如果没有特殊字符(例如“[a-z]”,“”或“.”)跟在您要查找的单词之后,则可以使用conditional operator排除每个,后缀:

((bouchard)+?([ .,]+)[ ,.a-zA-Z]*)|(bouchard[^a-zA-Z]?)

此regexp返回条件(必须为[ .,]+):
bouchard
bouchard, m.
bouchard, j.
bouchard j.p.
bouchard. j.p.

并忽略不适用|的管道[ .,]+之后的内容:
bouchardat

Regex101

10-05 22:38