我是初学者python程序员。我正在尝试使用正则表达式来构建要附加到列表的组。我不确定我想做的事是否可以用一个正则表达式覆盖,或者我是否需要通过多个正则表达式传递文本。

测试数据:

亚达亚达0.003 40 40.00

矢田田雅55

yaaaaaaya 100.0000 4

我的正则表达式:

(\w+ *\w* *\w*) (\d*\.*\d*) *(\d*\.*\d*) *(\d*\.*\d*)\n


我得到的小组:

'yada yada','0.003','40','40.00'

'yadayada ya','55',空,空

'yaaaaaaya','100.0000','4',空

但是我想要的组是:

'yada yada','0.003','40','40.00'

'yadayada ya',空,空,'55'

'yaaaaaaya',空,'100.0000','4'

是否可以更改正则表达式以将空(\ d *。* \ d *)组引入那些少于三个组的行中?这样数字组是“右对齐的”?

我试图添加?到前两个(\ d *)组的末尾,但获得相同的空组。

最佳答案

通俗地说,将比赛描述为“正确调整”比赛的最简单方法是: e。优先匹配后面的可选子表达式,是为了扭转可选组件的“贪婪”。在Python正则表达式中,这是通过向每个量化元素添加?来实现的:

(\w+ *\w* *\w*) (\d*?\.*?\d*?) *?(\d*?\.*?\d*?) *?(\d*?\.*?\d*?)\n


请注意,您的表达方式非常宽松,不会验证某些格式不正确的输入。如果这对您有用,那就太好了,否则,您可能要考虑将某些部分粘贴在可选组中,例如(| \d+(?:\.\d+)?)以延迟匹配空格和数字(例如,构造(|x)等效于((?:x)??))。

编辑:正如Tim所指出的,此正则表达式的缺点不仅仅在于宽容,而且即使输入的格式略有错误,也可能导致灾难性的回溯。如果您打算坚持使用这种方法,我建议您提供一些更精确的方法:

(\w+(?: \w+){0,2}) (|\d+(?:\.\d+)?) ?(|\d+(?:\.\d+)?) ?(|\d+(?:\.\d+)?)\n


它仍然可以匹配格式错误的输入,但至少现在有点紧了。

关于python - 使用正则表达式添加空组,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47648166/

10-14 16:23