html 空白汉字占位符 

  在爬取京东评论时,复制html内容,发现文本中有些空格的宽度没见过。后来用htmlParser解析html页面时,发现这些空格都被替换为 。

12288是Unicode编码,&#表示宋体,&#12288就表示一个汉字的宽度,在浏览器中就显示为一个汉字宽度的空格。

 

posted @ 2014-04-23 10:01  而远之  阅读(1569)  评论(1编辑  收藏  举报