在爬取京东评论时,复制html内容,发现文本中有些空格的宽度没见过。后来用htmlParser解析html页面时,发现这些空格都被替换为 。

12288是Unicode编码,&#表示宋体,&#12288就表示一个汉字的宽度,在浏览器中就显示为一个汉字宽度的空格。

05-06 17:22