python的编码与解码

1.特殊情况

\xe5\xae\x9d\xe9\x

python2控制台bai输出会有这种情况，包括以下list里面的汉字虽du然是utf8格式的但仍然zhi不可见中文。
只需要包要查看的list转为str并decode("string_escape")
例子为：
li = [((33, 39), '宝马'), ((36, 39), '马')]
print str(li).decode("string_escape")
输出就是可查看的样式 [((33, 39), '宝马'), ((36, 39), '马')]

2.编码与解码

在解决错误之前，首先要了解unicode和utf-8的区别。

unicode指的是万国码，是一种“字码表”。而utf-8是这种字码表储存的编码方法。unicode不一定要由utf-8这种方式编成bytecode储存，也可以使用utf-16,utf-7等其他方式。目前大多都以utf-8的方式来变成bytecode。

其次，Python中字符串类型分为byte string 和 unicode string两种。

        如果在python文件中指定编码方式为utf-8(#coding=utf-8)，那么所有带中文的字符串都会被认为是utf-8编码的byte string（例如：mystr="你好"），但是在函数中所产生的字符串则被认为是unicode string。
        问题就出在这边，unicode string 和 byte string 是不可以混合使用的，一旦混合使用了，就会产生这样的错误。例如：
        self.response.out.write("你好"+self.request.get("argu"))
        其中，"你好"被认为是byte string，而self.request.get("argu")的返回值被认为是unicode string。由于预设的解码器是ascii，所以就不能识别中文byte string。然后就报错了。

        以下有两个解决方法：
       1.将字符串全都转成byte string。
            self.response.out.write("你好"+self.request.get("argu").encode("utf-8"))
        2.将字符串全都转成unicode string。
           self.response.out.write(u"你好"+self.request.get("argu"))
            byte string转换成unicode string可以这样转unicode(unicodestring, "utf-8")

我的经验：

我是画图的时候，从数据框中取出的序列列名是中文的，序列不仅包括其中的数据，还有列名，于是整个的编码就是混合的，不是byte string（在开头规定了#coding = utf-8），画图时总是报

'ascii' codec can'tdecode byte 0xef in position 0: ordinal not in range(128)‘

解决方式：

一般而言编码错误采用转码，unicode,encode等，但是这些操作是对于string而言，这里是序列，不便于操作，于是

（1）改变默认的编码方式

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

问题可以得到解决，但是在notebook中不在显示Print后的内容，不太想用。

（2）将序列中的值取出来，不用序列画图，而是用多维数组画图

s.values

问题也可以解决。

（3）后来发现当DataFrame列名包含中文，还需要添加横轴坐标，不得不用到中文，此时整个列名显示好像是uicode编码

Index([u'全部', u'加赔'], dtype='object')

但是整个加入横轴坐标设置就是报错，编码不对，单个取出

'\xe5\x85\xa8\xe9\x83\xa8'

显然不是unicode（不知道为什么会这样？？）

用判断也表示不是uicode

isinstance(x_ticks1[0], unicode)

False

可以用str.decode('utf8')只能单个str用，序列没有这个功能，转为unicode，就对了。后来画图是可以显示中文了，不过还是很疑惑为什么？

==========================================================================================

Python字符串的编码与解码(encode与decode)

首先要搞清楚，字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串转换成gb2312编码。

在某些IDE中，字符串的输出总是出现乱码，甚至错误，其实是由于IDE的结果输出控制台自身不能显示字符串的编码，而不是程序本身的问题。

例如：ljq.py，编码为utf8，包含内容如下：

#-*-coding:utf-8-*- 

s='中文'
print type(s) #查看s的字符类型
print s  

s.decode('utf8') #解码utf8，默认的编码方式是unicode
s.decode('gbk', "ignore") #解码utf8，忽略其中有异常的编码，仅显示有效的编码
s.decode('gbk', 'replace')
print type(s)
print s

s.encode('gb2312') ##编码为utf8
print type(s)
print s

ljq.py编码必需与s.decode('utf8')指定的编码一致，不然会抛出解码异常信息，可以通过s.decode("gbk", "ignore")或s.decode("gbk", "replace")来解决。

另外对于一些包含特殊字符的编码，直接解码可能会报错，可以使用对于的参数来设置。如:
s.decode("utf-8", "ignore") 忽略其中有异常的编码，仅显示有效的编码
s.decode("utf-8", "replace") 替换其中异常的编码，这个相对来可能一眼就知道那些字符编码出问题了。

从unicode转str，被看做是把一个信息文本编码为二进制字节流的过程，要用encode方法

posted @ 2020-10-10 17:54 nanfengnan 阅读(543) 评论(0) 收藏举报

刷新页面返回顶部

一树梨花

淡泊明志，宁静致远。

python的编码与解码

Python字符串的编码与解码(encode与decode)

公告