我正在尝试从以下网页中抓取一些数据:
College Board - Georgia Institute of Technology
但是,仅在按下左侧的“应用”标签后,才会显示我需要访问的信息。由于URL不变,我如何模拟按下按钮以抓取HTML?
我正在使用Python3.3和请求模块。
最佳答案
根据页面来源,您需要的信息隐藏在javascript代码中,并在单击“应用”链接后进行计算和呈现。requests
根本无法在浏览器中执行用户操作,并且由于单击“应用”之后没有其他请求,因此,如果没有真正的浏览器来运行该js代码,就无法获取数据。 Mechanize也无济于事,因为它无法处理js。
考虑使用selenium(仅供参考,您也可以use a headless PhantomJS browser)。
希望能有所帮助。
关于javascript - 按下按钮后如何访问网页的HTML,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/22432976/