出于学习目的,我正在为电话号码实现一个小的正则表达式匹配器。我的目标是 可读性 ,而不是最短的 gawk 程序:
# should match
#1234567890
#123-456-7890
#123.456.7890
#(123)456-7890
#(123) 456-7890
BEGIN{
regexp="[0-9]{10},[0-9]{3}[-.][0-9]{3}[.-][0-9]{4},\\([0-9]{3}\\) ?[0-9]{3}-[0-9]{4}"
len=split(regexp,regs,/,/)
}
{for (i=1;i<=len;i++)
if ($0 ~ regs[i]) print $0
}
为了更好的可读性,我想将
regexp="...
行拆分为几行,例如:regexp="[0-9]{10}
,[0-9]{3}[-.][0-9]{3}[.-][0-9]{4}
,\\([0-9]{3}\\) ?[0-9]{3}-[0-9]{4}"
有没有一种简单的方法可以在 awk 中做到这一点?
最佳答案
BEGIN {
regs[1] = "[0-9]{10}"
regs[2] = "[0-9]{3}[-.][0-9]{3}[.-][0-9]{4}"
regs[3] = "\\([0-9]{3}\\) ?[0-9]{3}-[0-9]{4}"
c = 3
}
{
for (i = 1; i <= c; i++)
if ($0 ~ regs[i])
print $0
}
如果您的 awk 实现支持 length(array) - 使用它(请参阅下面的 Jaypal Singh 评论):
BEGIN {
regs[1] = "[0-9]{10}"
regs[2] = "[0-9]{3}[-.][0-9]{3}[.-][0-9]{4}"
regs[3] = "\\([0-9]{3}\\) ?[0-9]{3}-[0-9]{4}"
}
{
for (i = 1; i <= length(regs); i++)
if ($0 ~ regs[i])
print $0
}
还要考虑计算(动态)正则表达式的副作用,
有关更多信息,请参阅 GNU awk manual。
关于awk - 在几行上格式化正则表达式常量以提高可读性,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/8582165/