飘逸的python - 中文编码长度有趣的现象

最近在做验证用户姓名的功能时发现这样一个现象。

>>len(u'打怪者') #unicode

>>len(u'打怪者'.encode('gbk')) #gbk

>>len('打怪者') #utf-8

一般都知道，gbk编码每个汉字占用2个字节，utf8编码的每个汉字占用3个字节，这就是很多网站不用统一标准utf8的原因，就是gbk占用字节少。

既然len(u'打怪者')等于3，长度比gbk和utf8编码的都小，直接用unicode的不是更节省吗？

其实len出来的长度小不代表占用空间小。

在python中，string对象和unicode对象是两种不同的类型。

len(string)返回的是字节数，len(unicode)返回的是字符数。

而一个字符用一个或多个字节来表示。

posted @ 2013-07-22 20:22 爱生活，爱编程阅读(309) 评论(0) 收藏举报

刷新页面返回顶部

小C爱学习