我正在使用BeautifulSoup解析一个网页,它包含一些类似于以下内容的元素:

<td><font size="2" color="#00009c"><b>Consultant Registration Number  :</b></font>  16043646</td>

该结构似乎始终是<td>,第一部分用<font><b>包围,并且</font>标记之后的文本可以为空。如何获得字体标签之后的文本?

在此示例中,我想获取"16043646"。如果html是
<td><font size="2" color="#00009c"><b>Consultant Registration Number  :</b></font></td>

我想获取""

最佳答案

>>> from BeautifulSoup import BeautifulSoup
>>> text1 = '<td><font size="2" color="#00009c"><b>Consultant Registration Number  :</b></font>  16043646</td>'
>>> text2 = '<td><font size="2" color="#00009c"><b>Consultant Registration Number  :</b></font></td>'
>>> BeautifulSoup(text1).td.font.nextSibling
u'  16043646'
>>> BeautifulSoup(text2).td.font.nextSibling
>>>

关于python - 在一个标签外获取文本,在另一个标签内获取文本,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/7193664/

10-12 00:09
查看更多