问题描述
页面上有一个全局变量,其中包含一个我要为其设置抓取工具的对象。使用Node / Express /潜在的Cheerio做到这一点的最好方法是什么?
There is a global variable on a page that contains an object that I'd like to set up a scraper for. What's the best way to do this with Node / Express / potentially Cheerio?
我了解Cheerio在遍历DOM中的好处,但是我知道我想要的全局变量的名称抓取,只需要按设定的时间表提取其信息即可。
I understand Cheerio's benefit in traversing a DOM, but I know the name of the global variable I want to scrape and just need to extract its information on a set schedule
推荐答案
Cheerio只是一个dom解析器,因此您将无法访问
Cheerio is just a dom parser, so you wont have acces to any javascriot or any javascript generated content.
您需要的是类似模拟浏览器。
看看这个
What you need is something like PhantomJS that simulates a browser.Have a look at this Stackoverflow answer
这篇关于如何使用Node / Cheerio(或其他工具)从站点抓取全局变量?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!