我是regex的初学者,想问一下如何用regex解决此问题。目前,我正在尝试预处理德语文本。德语的字母中有一些特定的字符(ä,ö,ü)。但是,这些字母也可以用其他方式(ae,oe,ue)书写。所以我只是使用了replace方法,效果很好。
import pandas as pd
df = pd.DataFrame({"text": ["Uebergang", "euer"]})
df["text"] = df["text"].str.replace("ae", "ä")
df["text"] = df["text"].str.replace("Ae", "Ä")
df["text"] = df["text"].str.replace("oe", "ö")
df["text"] = df["text"].str.replace("Oe", "Ö")
df["text"] = df["text"].str.replace("ue", "ü")
df["text"] = df["text"].str.replace("Ue", "Ü")
但是,在某些特定模式下,不应进行替换。就像“ euer”一词一样。在这篇文章的一些帮助下,我试图制作一个有效的正则表达式:Regex Pattern to Match, Excluding when... / Except between
df["text"] = df["text"].str.replace("[AaÄäEe]ue|(ue)", "ü")
因此,如果括号[AaÄäEe]中有任何字符,并且之后出现“ ue”,那么我想排除这些情况。否则,“ ue”将被替换为“ü”。但这是行不通的,那你怎么办呢?提前致谢。
最佳答案
您可以使用
import re
import pandas as pd
dct = {'ae' : 'ä', 'Ae' : 'Ä', 'oe' : 'ö', 'Oe' : 'Ö', 'ue' : 'ü', 'Ue' : 'Ü'}
df = pd.DataFrame({"text": ["Uebergang", "euer"]})
df['text'].str.replace(r'[AaÄäEe]ue|([aouAOU]e)', lambda x: dct[x.group(1)] if x.group(1) else x.group())
# => 0 Übergang
# 1 euer
# Name: text, dtype: object
[AaÄäEe]ue|([aouAOU]e)
模式匹配:[AaÄäEe]ue
-A
,a
,Ä
,ä
,E
或e
后跟ue
子字符串|
-或([aouAOU]e)
-组1:a
,o
,u
,A
,O
或U
,然后是e
lambda x: dct[x.group(1)] if x.group(1) else x.group()
lambda表达式执行以下操作:组1匹配后,dct[x.group(1)]
将返回替换字符串。否则,找到的匹配项将被粘贴回去。关于python - 正则表达式:匹配特定模式,如果匹配在特定上下文中则排除,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51982073/