当我从一个网站上删除html表时,我想删除所有前导和尾随的td.text内容。
以下是我的代码:

row.append(td.text.strip('\n').strip('\r').strip('\t').strip('"').strip().strip(':').strip(' '))

如果没有strip functon,结果如下:
[['BP / Age',
  ': \r\n\r\n           USA/ 2',
  'FirstName',
  ':\r\n\t    \t \r\n            Walker\r\n\t    \n\n']]

对于strip functon,结果如下:
[['BP / Age',
  ': \r\n\r\n           USA/ 2',
  'FirstName',
  ':\r\n\t    \t \r\n            Walker']]

我如何摆脱剩余的\r\n\t?

最佳答案

不要试图逐渐脱光衣服。然后,您需要指定字符出现的确切顺序,这对所有字符串来说几乎不可能是相同的,并且必须反映出前导部分和尾随部分的顺序。
你可以一次脱光所有衣服:

row.append(td.text.strip('\n\r\t": '))

演示:
>>> ':\r\n\t    \t \r\n            Walker\r\n\t    \n\n'.strip('\n\r\t": ')
'Walker'

关于python - 抓取网络数据时无法删除\r\n\t?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/45011465/

10-14 19:30