我正在抓取一个HTML结构真的很差的网站,并且收到这样的文本

例:

Creator:
\r\r
My Name
\r\r
Date created:
\r\r
123123
<br><br>
Title:
\r\r
Title here
\r\r


我希望它看起来像

Creator: My Name
\r\r
Date created:123123
Title:Title here
\r\r


我有此正则表达式_str = re.sub('\r+','',_str),但我知道它的错,因为它替换了所有\r

有什么办法可以遍历re.sub()吗?还是您有任何想法要实现我的目标?

最佳答案

您应该尝试替换以下内容:


:
\r\r


:

10-07 19:00
查看更多