我正在制作一个需要从imdb业务页面获取数据的项目。我正在使用python。数据存储在两个标签之间,如下所示:

预算

$ 220,000,000(估计)


我想要数字量,但是到目前为止还没有成功。有什么建议么。

最佳答案

看一下Beautiful Soup,它是一个有用的抓取库。如果您查看源代码,则“预算”位于h4元素内,该值位于DOM中的下一个位置。这可能不是最好的示例,但它适用于您的情况:

import urllib
from bs4 import BeautifulSoup


page = urllib.urlopen('http://www.imdb.com/title/tt0118715/?ref_=fn_al_nm_1a')
soup = BeautifulSoup(page.read())
for h4 in soup.find_all('h4'):
    if "Budget:" in h4:
        print h4.next_sibling.strip()

# $15,000,000

关于python - 如何从imdb业务页面抓取数据?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/27665509/

10-13 01:14