我正在编写一个 lisp 程序来获取一个中文网站的网页,我遇到了从二进制流中解析中文单词的问题,我已经有一个包含整个页面的(无符号字节 8)向量,但是当我把它放到 babel:octets-to-string 中,它会抛出一个异常。



异常(exception)是:



我发现当它遇到一个中文单词时,它必须抛出这个异常。我该如何解决?

最佳答案

错误消息说明了一切 - 您的数据中存在无效的 UTF-8 字节序列。

此错误的最可能原因是页面文本本身不是以 UTF-8 编码,而是以其他一些中文文本编码。您应该检查 HTML 'META HTTP-EQUIV' 标签和 'Content-Type' HTTP 响应头以进行编码。

关于utf-8 - babel :octets-to-string throws out INVALID-UTF8-CONTINUATION-BYTE,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/8545777/

10-12 07:33