编解码原理,Python默认解码是ascii

编解码原理,Python默认解码是ascii

 

 

首先我们知道,python里的字符默认是ascii码,英文当然没问题啦,碰到中文的时候立马给跪。

不知道你还记不记得,python里打印中文汉字的时候需要在字符串前面加 u:

 

print u"来吗?"

这样子中文才能显示,这里面的u的作用就是将后面的字符串转换为unicode码,这样中文才能得到正确的显示。

这里与之相关的有一个unicode()函数,用法如下

1

2

3

str="来吗"

str=unicode(str,"utf-8")#以utf来解码,重新编码为unicode

print str

与u的区别是,这里用unicode将str转换为unicode编码,需要正确指定第二个参数,这里的utf-8是我test.py脚本自身的文件字符集,默认的可能是ansi。

 

 

因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

 

decode的作用是将其他编码的字符串转换成unicode编码,

 

如str1.decode('gb2312'),表示将gb2312编码的字符串转换成unicode编码。

 

encode的作用是将unicode编码转换成其他编码的字符串,

 

如str2.encode('gb2312'),表示将unicode编码的字符串转换成gb2312编码。

 

isinstance(s, unicode) #用来判断是否为unicode

 

posted on 2017-07-20 16:01  JasonKwok  阅读(653)  评论(0)    收藏  举报

导航