我需要有关python中regex的帮助。
我有一个大的html文件[大约400行],格式如下
text here(div,span,img tags)
<!-- 3GP||Link|| -->
text here(div,span,img tags)
所以,现在我正在寻找一个正则表达式,它可以提取我这个-:
Link
给定的模式在html文件中是唯一的。
最佳答案
>>> d = """
... Some text here(div,span,img tags)
...
... <!-- 3GP||**Some link**|| -->
...
... Some text here(div,span,img tags)
... """
>>> import re
>>> re.findall(r'\<!-- 3GP\|\|([^|]+)\|\| --\>',d)
['**Some link**']
r''
是原始文本,它停止解释标准字符串转义\<!-- 3GP\|\|
是<!-- 3GP||
的regexp转义匹配([^|]+)
将匹配到a|
的所有内容,并将其分组以方便使用\|\| --\>
是|| -->
的regexp转义匹配re.findall
返回字符串中re-pattern的所有不重叠匹配项,如果re-pattern中有组表达式,则返回该值。