这里很简单,但是我对Python还是很陌生。
我有一个像这样的字符串:
this is page one of an article
<!--pagebreak page two --> this is page two
<!--pagebreak--> this is the third page
<!--pagebreak page four --> last page
// newlines added for readability
我需要使用此正则表达式拆分字符串:
<!--pagebreak(*.?)-->
-想法是有时<!--pagebreak-->
注释有时带有“标题”(我在模板中使用),而其他时候则没有。我尝试了这个:
re.split("<!--pagebreak*.?-->", str)
它仅返回分页符中带有“标题”的项目(也没有正确拆分它们)。我在这里做错了什么?
最佳答案
将*.?
更改为.*?
:
re.split("<!--pagebreak.*?-->", str)
您当前的正则表达式可以接受任意数量的文字
k
,并且可以选择后面跟随(任意字符)。另外,我建议对正则表达式使用原始字符串(
r"..."
)。在这种情况下没有必要,但这是一种让自己省去一些麻烦的简单方法。