我正在使用this script抓取一些购物网站。我遇到了一个很大的问题,使该脚本和其他任何脚本对我都毫无用处。
我们计划抓取一个名为digikala(www.digikala.com)的购物网站的页面。问题在于主要产品网格通过AJAX调用加载其数据。
例如此页面:http://www.digikala.com/Search/Category-Mobile-Phone/#!/Brand-10/Category-Electronic-Devices/Category-Mobile/Category-Mobile-Phone/
如果您看到Firebug /开发者控制台,则将在AJAX帖子呼叫后看到该类别的产品网格正在加载。那么,我该如何抓取该产品页面?
在获取页面之前添加一些等待时间(例如10秒)将解决此问题?
最佳答案
option1:使用浏览器模拟,将其作为phantomjs,
option2:从开发人员工具检出ajax网址,直接从该网址获取数据。注意,可能需要特殊的标头或某种验证。
关于ajax - Node 简单抓取程序:内容页面被抓取问题,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32415687/