python编码

对于文件的编码,有许多不同的形式,

1. gbk

2. utf - 8

3. Unicode

4. ASCII

ascii 8位 1个字节
Unicode 32位 4个字节
utf- 8
英文字母(1个) 8位
中文汉字(1个) 24位
1个字节
3个字节
gbk
英文字母 8位
中文汉字 16位
1个字节
2个字节

其中Unicode由于编码字节占用的过大,所以在文件传输时不使用Unicode,

但在python中,字符串的编码格式是Unicode,因为无论是utf-8还是gbk,在编码之后的字符串在打印,是十六进制的格式,人看不懂。

但是由于传输文件时不能使用Unicode,所以涉及到了转码

bytes类型是python传输文件时的格式

在英文编码时,可能看不出什么问题,但是中文编码以后就有可能看不懂

 

编码:

s1 = 'alex'
s11 = s1.encode()
print(s11)
b'alex'

 这里编码方式默认使用的是 gbk

s2 = "中国"
s22 = s2.encode()
print(s22)
b'\xe4\xb8\xad\xe5\x9b\xbd'

  

 

 

posted @ 2019-06-18 19:46  DEVILNEVERCRY  阅读(81)  评论(0)    收藏  举报