我需要有关python中regex的帮助。
我有一个大的html文件[大约400行],格式如下

text here(div,span,img tags)

<!-- 3GP||Link|| -->

text here(div,span,img tags)

所以,现在我正在寻找一个正则表达式,它可以提取我这个-:
Link

给定的模式在html文件中是唯一的。

最佳答案

>>> d = """
... Some text here(div,span,img tags)
...
... <!-- 3GP||**Some link**|| -->
...
... Some text here(div,span,img tags)
... """
>>> import re
>>> re.findall(r'\<!-- 3GP\|\|([^|]+)\|\| --\>',d)
['**Some link**']

r''是原始文本,它停止解释标准字符串转义
\<!-- 3GP\|\|<!-- 3GP||的regexp转义匹配
([^|]+)将匹配到a|的所有内容,并将其分组以方便使用
\|\| --\>|| -->的regexp转义匹配
re.findall返回字符串中re-pattern的所有不重叠匹配项,如果re-pattern中有组表达式,则返回该值。

10-04 17:34