我正在制作一个需要从imdb业务页面获取数据的项目。我正在使用python。数据存储在两个标签之间,如下所示:
预算
$ 220,000,000(估计)
我想要数字量,但是到目前为止还没有成功。有什么建议么。
最佳答案
看一下Beautiful Soup,它是一个有用的抓取库。如果您查看源代码,则“预算”位于h4
元素内,该值位于DOM中的下一个位置。这可能不是最好的示例,但它适用于您的情况:
import urllib
from bs4 import BeautifulSoup
page = urllib.urlopen('http://www.imdb.com/title/tt0118715/?ref_=fn_al_nm_1a')
soup = BeautifulSoup(page.read())
for h4 in soup.find_all('h4'):
if "Budget:" in h4:
print h4.next_sibling.strip()
# $15,000,000
关于python - 如何从imdb业务页面抓取数据?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/27665509/