我正在抓取一个HTML结构真的很差的网站,并且收到这样的文本
例:
Creator:
\r\r
My Name
\r\r
Date created:
\r\r
123123
<br><br>
Title:
\r\r
Title here
\r\r
我希望它看起来像
Creator: My Name
\r\r
Date created:123123
Title:Title here
\r\r
我有此正则表达式
_str = re.sub('\r+','',_str)
,但我知道它的错,因为它替换了所有\r
有什么办法可以遍历
re.sub()
吗?还是您有任何想法要实现我的目标? 最佳答案
您应该尝试替换以下内容:
:
\r\r
由
: