我想从this page收集数据。我有要在搜索框中输入的关键字,搜索框定义为带有<input>
的HTML5 eventlistener
,该HTML可根据查询动态更改页面。
例如,我想要一个脚本在搜索字段中输入术语“ hello world”,然后抓取动态生成的内容,例如显示的集合的名称。由于同源政策的缘故,我不能使用JavaScript,而我花了最后3个小时来研究Python,但在那里找不到任何东西。
我无法确定这是否如此明显,没人会对此写/询问,或者这是一种不让脚本从您的网站上刮掉的聪明方法。
最佳答案
在Chrome的Debugger或Firefox的Firebug中打开页面,查看“网络”选项卡,并在将文本输入到输入字段中时找出JavaScript正在执行的AJAX请求。
然后使用以下任一方法编写网络爬虫:
https://pypi.python.org/pypi/requests
https://pypi.python.org/pypi/spyda
https://pypi.python.org/pypi/scrapy
关于javascript - 使用HTML5 <input>字段抓取动态生成的网页,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/20533076/