编码问题

今天去听同事的网络爬虫的技术讲座。鄙人虽然不才也写过爬虫，也曾被一个点困扰过，就是处理汉字编码，于是就提了出来，这哥们回答的也挺好。

首先是是使用python的库charet进行检测，先转成unicode,最后转成utf8格式，系统内部处理一律以utf8进行处理。

进行检测我可以理解，内部一律以utf8我也可以理解，但是我很奇怪为什么转两次？为什么不直接转？

同事回答：是因为unicode包含（或者对应？）utf8和gbk等多种编码，所以先转成unicode再转utf8的成功性会大很多，直接转有可能转不过去

似乎很有道理，不过我想我需要查清楚

posted on 2014-03-27 17:45 codestyle 阅读(184) 评论(0) 收藏举报

刷新页面返回顶部

技术宅，fat-man