我目前正在使用Scraperjs抓取一个具有字符集ISO-8859-1的网站。我的问题是æ,ø,å和é等字符未正确编码(它们显示/保存为问号)。
有任何想法吗?
Scraperjs:
https://github.com/ruipgil/scraperjs
最佳答案
自己找到解决方案。您需要将编码指定为二进制,以读取显示的字符。请参见下面的代码:
scraperjs.StaticScraper.create()
.request({ url:"http://vg.no", encoding: "binary"})
.scrape(function($) {
return $("p").map(function() {
return $(this);
});
})
.then(function(domElements).........