Python3中内置类型bytes和str用法及byte和string之间各种编码转换

python3最重要的新特性大概要算对文本和二进制数据做了更为清晰的区分,文本总是unicode字符集,有str类型表示,二进制数据则有bytes类型表示。python3不会以任何隐式的方式混用str和bytes,正是这是的这两者的区别特别明显,你不能拼接字符串和字节包,也无法在字节包里搜索字符串(反之亦然),也不能将字符串传入参数为字节包的函数(反之亦然);

我们不关心字符串在内部是如何被表示的,也不关心它用几个字节来表示每个字符。只有在将字符串编码成字节(如用于通信信道的传输)或将字节解码成字符串时,才考虑这些问题。

 

 

 

1. 创建bytes类型数据

>>> a = bytes([1,2,3,4])

>>> a

b'\x01\x02\x03\x04'

>>> type(a)

<class 'bytes'>

>>>

>>> a = bytes('hello','ascii')

>>>

>>> a

b'hello'

>>> type(a)

<class 'bytes'>

>>> 

 

2. 编码可以将抽象字符以二进制数据的形式表示,有很多编码方法,如utf-8、gbk等,可以使用encode()函数对字符串进行编码,转换成二进制字节数据,也可用decode()函数将字节解码成字符串;用decode()函数解码,可不要用指定编码格式;

>>> a = 'hello world'

>>> type(a)

<class 'str'>

>>> a

'hello world'

>>>

a. 按utf-8的方式编码,转成bytes:以及解码成字符串

>>> b = a.encode(encoding='utf-8')

>>> type(b)

<class 'bytes'>

>>>

>>> b

b'hello world'

>>>

>>>

>>> c = b.decode(encoding='utf-8')

>>> type(c)

<class 'str'>

>>> c

'hello world'

>>>

b. 按gbk的方式编码,转成bytes:以及解码成字符串

>>> x = a.encode(encoding='gbk')

>>> type(x)

<class 'bytes'>

>>>

>>> x

b'hello world'

>>>

>>> y = x.decode()

>>> type(y)

<class 'str'>

>>>

>>> y

'hello world'

>>>

 

posted @ 2017-02-15 19:06 咱家浩哥 阅读(...) 评论(...) 编辑 收藏