python 之编码问题详解

前在一个项目中遇到用post提交一个xml，xml中含有中文，对于单独的py文件，使用urllib2.urlopen完全ok，但在django中使用就一直报编码错误，然后在网上看到这篇文章不错，决定mark一下，学习学习。原文地址：http://www.2cto.com/kf/201407/317866.html

全部是在python2.7.*的环境下。

1.Python编码基础

1.1 str和unicode

python中有两种数据模型来支持字符串这种数据类型，str和unicode，它们的基类都是basestring。比如s = "中文"就是str类型的字符串，而u=u"中文"就是一个unicode类型的字符串。unicode是由str类型的字符串解码后得到，unicode也可以编码成str类型。即

        str --> decode --> unicode
unicode --> encode --> str
 
严格来说，str也许应该叫做字节串，因为对于UTF-8编码的str类型"中文"，使用len()函数得到的结果是6，因为UTF-8编码的str类型“中文”实际是"\xe4\xb8\xad\xe6\x96\x87"。而对于unicode类型u“中文”(实际是u"\u4e2d\u6587")，使用len()函数得到结果是2。
1.2 头部编码声明在python源代码文件中如果有用到非ascii字符，比如中文，那么需要在源码文件头部声明源代码字符编码，格式如下：

1 #-*- coding: utf-8 -*-
这个格式看起比较复杂，其实python只检查#、coding，编码等字符串，可以简写成#coding:utf-8，甚至还可以写成#coding:u8。
2.Python2.x常见编码问题2.1 头部编码声明和文件编码问题文件头部编码声明决定了python解析源码中的str的编码选择方式，比如头部声明的是utf-8编码，则代码中s="中文"python就会按照utf-8编码格式来解析，通过repr(s)可以看到字符编码是"\xe4\xb8\xad\xe6\x96\x87"，如果头部声明的编码是gbk编码，则python会对s采用gbk编码解析，结果是"\xd6\xd0\xce\xc4"。
需要注意的是，文件本身的编码要跟文件头部声明编码一致，不然就会出现问题。文件本身的编码在Linux下面可以在vim下用命令set fenc来查看。如果文件本身编码是gbk，而源码文件头部声明的编码是utf-8，这样如果源码中有中文就会有问题了，因为本身中文str存储是按照gbk编码来的，而python在解析str的时候又以为是utf-8编码，这样就会报SyntaxError: (unicode error) 'utf8' codec can't decode byte错误。
2.2 默认编码问题下面看个python默认编码导致的问题：

 1 #coding: utf-8
 2 u = u"中文"
 3 print repr(u) # u'\u4e2d\u6587'
 4  
 5 s = "中文"
 6 print repr(s) # '\xe4\xb8\xad\xe6\x96\x87'
 7  
 8 u2 = s.decode("utf-8")
 9 print repr(u2) # u'\u4e2d\u6587'
10  
11 #s2 = u.decode("utf-8") #编码错误
12 #u2 = s.encode("utf-8") #解码错误
注意实例中注释掉的2行代码，对于unicode最好不要直接调用decode，str最好不要直接调用encode方法。因为如果是直接调用，则相当于

1 u.encode(default_encoding).decode("utf-8")    # default_encoding是python的unicode实现中用的默认编码，即 sys.getdefaultencoding() 得到的编码
如果你没有设置过，那么默认编码就是ascii，如果你的unicode本身超出了ascii编码范围就会报错。同理，如果对str直接调用encode方法，那么默认会先对str进行解码，即

1 s.decode(default_encoding).encode("utf-8")
如果str本身是中文，而default_encoding是ascii的话，解码就会出错，从而导致上面这两行会分别报

UnicodeEncodeError: 'ascii' codec can't encode characters in position...
和

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position...
上面例子中注释掉的两行代码如果执行就会报错，当然，如果本身str或者unicode都在ascii编码范围，就没有问题。比如s = "abc"; s.encode("utf-8")就不会有问题，语句执行后会返回一个跟s的id不同的str。
那如果要解决实例1中的问题，有两种方法，其一是明确指定编码，如下所示:

 1 #coding: utf-8
 2 u = u"中文"
 3 print repr(u) # u'\u4e2d\u6587'
 4  
 5 s = "中文"
 6 print repr(s) # '\xe4\xb8\xad\xe6\x96\x87'
 7  
 8 u2 = s.decode("utf-8")
 9 print repr(u2) # u'\u4e2d\u6587'
10  
11 s2 = u.encode("utf-8").decode("utf-8")  # OK                                    
12 u2 = s.decode("utf8").encode("utf-8")   # OK
第二种方法就是更改python的默认编码为文件编码格式，如下所示(这里只所以要reload sys模块，是因为python初始化后删除了setdefaultencoding方法：

 1 #coding:utf-8                                                                  
 2  
 3 import sys 
 4 reload(sys)
 5 sys.setdefaultencoding("utf-8") #更改默认编码为utf-8
 6  
 7 u = u"中文"
 8 print repr(u) # u'\u4e2d\u6587'
 9  
10 s = "中文"
11 print repr(s) # '\xe4\xb8\xad\xe6\x96\x87'
12  
13 u2 = s.decode("utf-8")
14 print repr(u2) # u'\u4e2d\u6587'
15  
16 s2 = u.decode("utf-8")
17 u2 = s.encode("utf-8")
2.3读写文件编码采用python的open()方法打开文件时，read()读取的是str，编码就是文件本身的编码。而调用write()写文件时，如果参数是 unicode，则需要用指定编码encode，如果write()参数是unicode而且没有指定编码，则会采用python默认编码(sys.getdefaultencoding())encode后再写入。

 1 #coding:utf-8                                                                  
 2 f = open("testfile")
 3 s = f.read()
 4 f.close()
 5 print type(s) # <type str>
 6  
 7 u = s.decode("utf-8") #testfile是utf-8编码
 8 f = open("testfile", "w")
 9 f.write(u.encode("gbk")) #以gbk编码写入，testfile为gbk编码
10 f.close()
此外，python的codecs模块提供了一个open()方法，可以指定编码打开文件，使用这个方法打开文件读取返回是unicode。写入时，如果 write参数是unicode，则使用打开文件时的编码写入，如果是str，则先使用默认编码解码成unicode后再以打开文件的编码写入(这里需要 注意如果str是中文，而默认编码sys.getdefaultencoding()是ascii的话会报解码错误)。

#coding:gbk
import codecs
 
f = codecs.open('testfile', encoding='utf-8')
u = f.read()
f.close()
print type(u) # <type unicode>
 
f = codecs.open('testfile', 'a', encoding='utf-8')
f.write(u) #写入unicode
 
# 写入gbk编码的str，自动进行解码编码操作
s = '汉'
print repr(s) # '\xba\xba'
# 这里会先将GBK编码的str解码为unicode再编码为UTF-8写入
#f.write(s) #默认编码为ascii时，这会报解码错误。
f.close()
 3. 关于BOM头有些软件在保存UTF-8编码的时候，会在文件最开始的地方插入不可见的字符BOM（0xEF 0xBB 0xBF，即BOM），这些不可见字符无法被识别，encode的时候会报错，例如：（utf-8转为gbk）

UnicodeEncodeError:'gbk' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence
遇到这种情况可以利用codecs模块：（test.txt以utf-8保存）

1 import codecs
2 content = open('test.txt', 'r').read()
3 filehandle.close()
4 if content[:3] == codecs.BOM_UTF8:    # 如果存在BOM头则去掉
5     content = content[3:]
6 
7 print content.decode('utf-8').encode('gbk')
 

posted on 2016-01-14 14:56 刘[小]倩阅读(523) 评论(0) 收藏举报

刷新页面返回顶部

刘[小]倩

python 之编码问题详解

1.Python编码基础

1.1 str和unicode

1.2 头部编码声明

2.Python2.x常见编码问题

2.1 头部编码声明和文件编码问题

2.2 默认编码问题

2.3读写文件编码

3. 关于BOM头

导航

公告