这里很简单,但是我对Python还是很陌生。

我有一个像这样的字符串:

this is page one of an article
<!--pagebreak page two --> this is page two
<!--pagebreak--> this is the third page
<!--pagebreak page four --> last page
// newlines added for readability


我需要使用此正则表达式拆分字符串:<!--pagebreak(*.?)-->-想法是有时<!--pagebreak-->注释有时带有“标题”(我在模板中使用),而其他时候则没有。

我尝试了这个:

re.split("<!--pagebreak*.?-->", str)


它仅返回分页符中带有“标题”的项目(也没有正确拆分它们)。我在这里做错了什么?

最佳答案

*.?更改为.*?

re.split("<!--pagebreak.*?-->", str)


您当前的正则表达式可以接受任意数量的文字k,并且可以选择后面跟随(任意字符)。

另外,我建议对正则表达式使用原始字符串(r"...")。在这种情况下没有必要,但这是一种让自己省去一些麻烦的简单方法。

10-06 08:40