解析http://en.wikipedia.org/wiki/Israel时,遇到一个带有文本的H2标记,但是Beautiful Soup为其返回一个None类型:

$ python
Python 2.7.3 (default, Apr 10 2013, 05:13:16)
[GCC 4.7.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import bs4
>>> import requests
>>> from pprint import pprint
>>> response = requests.get('http://en.wikipedia.org/wiki/Israel')
>>> soup = bs4.BeautifulSoup(response.content)
>>> for h in soup.find_all('h2'):
...     pprint(str(type(h)))
...     pprint(h)
...     pprint(str(type(h.string)))
...     pprint(h.string)
...     print('--')
...
"<class 'bs4.element.Tag'>"
<h2>Contents</h2>
"<class 'bs4.element.NavigableString'>"
u'Contents'
--
"<class 'bs4.element.Tag'>"
<h2><span class="mw-headline" id="Etymology"><span id="Etymology"></span> Etymology</span></h2>
"<type 'NoneType'>"
None
--
"<class 'bs4.element.Tag'>"
<h2><span class="mw-headline" id="History">History</span></h2>
"<class 'bs4.element.NavigableString'>"
u'History'
--


请注意,这不是解析问题,Beautiful Soup可以很好地解析文档。为什么第二个H2元素返回一个None类型?是由于字符串中的“”(空格)引起的?我该如何解决?这是在Python 2.7,Kubuntu Linux 12.10上的Beautiful Soup 4中提供的。

最佳答案

我正在回答上半年的第一部分,这是怎么回事...

引用documentation of bs4的话:“如果标签包含多个内容,则不清楚.string应该指的是什么,因此.string被定义为None。”

现在另一半,如何解决。

再次引用同一来源:“如果标签中包含多个内容,您仍然可以只查看字符串。使用.strings生成器。”更好的是,使用.stripped_strings生成器,将结果连接起来,我想您会得到想要的结果。

关于python - BeautifulSoup 找不到字符串,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/18535408/

10-12 21:45