我正试图从这个Wikipedia page中刮除那些过生日的人

这是现有的代码:

hdr = {'User-Agent': 'Mozilla/5.0'}
site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1"
req = urllib2.Request(site,headers=hdr)
page = urllib2.urlopen(req)
soup = BeautifulSoup(page)

print soup


一切正常,我得到了整个HTML页面,但是我想要特定的数据,而且我不知道如何在没有ID的情况下使用Beautiful Soup访问它。 <ul>标记没有ID,<li>标记也没有。另外,我不能仅仅要求每个<li>标签,因为页面上还有其他列表。有特定的方法来调用给定列表吗? (我不能只为此页面使用修复程序,因为我计划遍历所有日期并让每一页生日,而且我无法保证每一页与该页面的布局完全相同)。

最佳答案

找到“出生”部分:

section = soup.find('span', id='Births').parent


然后找到下一个无序列表:

births = section.find_next('ul').find_all('li')

10-07 18:57
查看更多