我正在尝试从此网页中获取表格。我不确定是否要获取正确的标签。这是我到目前为止所拥有的。
from bs4 import BeautifulSoup
import requests
page='http://www.airchina.com.cn/www/en/html/index/ir/traffic/'
r=requests.get(page)
soup=BeautifulSoup(r.text)
test=soup.findAll('div', {'class': 'main noneBg'})
rows=test.findAll("td")
是
main noneBg
表格吗?当我将鼠标悬停在该标签上时,它会突出显示表格吗? 最佳答案
您需要的表位于从另一个URL加载的iframe
中。
抓取它的方法如下(注意URL是否不同):
from bs4 import BeautifulSoup
import requests
page = 'http://www.airchina.com.cn/www/jsp/airlines_operating_data/exlshow_en.jsp'
r = requests.get(page)
soup = BeautifulSoup(r.text)
div = soup.find('div', class_='mainRight').find_all('div')[1]
table = div.find('table', recursive=False)
for row in table.find_all('tr', recursive=False):
for cell in row('td', recursive=False):
print cell.text.strip()
印刷品:
Feb 2014
% change vs Feb 2013
% change vs Jan 2014
Cumulative Feb 2014
% cumulative change
1.Traffic
1.RTKs (in millions)
1407.8
...
请注意,由于页面上的嵌套表,您需要使用
recursive=False
。关于python - Python Beautifulsoup抢表,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/22812536/