出于学习目的,我正在为电话号码实现一个小的正则表达式匹配器。我的目标是 可读性 ,而不是最短的 gawk 程序:

# should match
#1234567890
#123-456-7890
#123.456.7890
#(123)456-7890
#(123) 456-7890

BEGIN{
    regexp="[0-9]{10},[0-9]{3}[-.][0-9]{3}[.-][0-9]{4},\\([0-9]{3}\\) ?[0-9]{3}-[0-9]{4}"
    len=split(regexp,regs,/,/)
}
{for (i=1;i<=len;i++)
    if ($0 ~ regs[i]) print $0
}

为了更好的可读性,我想将 regexp="... 行拆分为几行,例如:
regexp="[0-9]{10}
       ,[0-9]{3}[-.][0-9]{3}[.-][0-9]{4}
       ,\\([0-9]{3}\\) ?[0-9]{3}-[0-9]{4}"

有没有一种简单的方法可以在 awk 中做到这一点?

最佳答案

BEGIN {
    regs[1] = "[0-9]{10}"
    regs[2] = "[0-9]{3}[-.][0-9]{3}[.-][0-9]{4}"
    regs[3] = "\\([0-9]{3}\\) ?[0-9]{3}-[0-9]{4}"
    c = 3
    }
{
  for (i = 1; i <= c; i++)
    if ($0 ~ regs[i])
      print $0
  }

如果您的 awk 实现支持 length(array) - 使用它(请参阅下面的 Jaypal Singh 评论):
BEGIN {
    regs[1] = "[0-9]{10}"
    regs[2] = "[0-9]{3}[-.][0-9]{3}[.-][0-9]{4}"
    regs[3] = "\\([0-9]{3}\\) ?[0-9]{3}-[0-9]{4}"
    }
{
  for (i = 1; i <= length(regs); i++)
    if ($0 ~ regs[i])
      print $0
  }

还要考虑计算(动态)正则表达式的副作用,
有关更多信息,请参阅 GNU awk manual

关于awk - 在几行上格式化正则表达式常量以提高可读性,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/8582165/

10-16 16:07