当我从一个网站上删除html表时,我想删除所有前导和尾随的td.text
内容。
以下是我的代码:
row.append(td.text.strip('\n').strip('\r').strip('\t').strip('"').strip().strip(':').strip(' '))
如果没有strip functon,结果如下:
[['BP / Age',
': \r\n\r\n USA/ 2',
'FirstName',
':\r\n\t \t \r\n Walker\r\n\t \n\n']]
对于strip functon,结果如下:
[['BP / Age',
': \r\n\r\n USA/ 2',
'FirstName',
':\r\n\t \t \r\n Walker']]
我如何摆脱剩余的\r\n\t?
最佳答案
不要试图逐渐脱光衣服。然后,您需要指定字符出现的确切顺序,这对所有字符串来说几乎不可能是相同的,并且必须反映出前导部分和尾随部分的顺序。
你可以一次脱光所有衣服:
row.append(td.text.strip('\n\r\t": '))
演示:
>>> ':\r\n\t \t \r\n Walker\r\n\t \n\n'.strip('\n\r\t": ')
'Walker'
关于python - 抓取网络数据时无法删除\r\n\t?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/45011465/