我目前正在使用Scraperjs抓取一个具有字符集ISO-8859-1的网站。我的问题是æ,ø,å和é等字符未正确编码(它们显示/保存为问号)。

有任何想法吗?

Scraperjs:
https://github.com/ruipgil/scraperjs

最佳答案

自己找到解决方案。您需要将编码指定为二进制,以读取显示的字符。请参见下面的代码:

        scraperjs.StaticScraper.create()
        .request({ url:"http://vg.no", encoding: "binary"})
        .scrape(function($) {
            return $("p").map(function() {
                return $(this);
            });
        })
        .then(function(domElements).........

09-19 19:43