计算机 编码

编码,文字和二进制之间的一个对照表。

1.ascii编码

ascii规定使用1个字节来表示字母与二进制的对应关系。

00000001 w
00000010 B
00000011 a

一共有2**8 = 256种表示结果;

2是一位有0和1俩种情况,

8是,一个字节有8位;所以最多有2的8次幂中情况,最多能表示256个字符;

2.gb-2312编码

gb-2312编码,由国家信息标准委员会制作(1980年)。

gbk编码,对gb2312进行扩展,包含了中日韩等文字(1995年)。

在与二进制做对应关系时,由如下逻辑:

  单字节表示,用一个字节表示对应关系。2**8 = 256

  双字节表示,用两个字节表示对应关系。2**16 = 65536中可能性。

3.unicode

unicode也被称为万国码,为全球的每个文字都分配了一个码位(二进制表示)。

ucs2 

  用固定的2个字节去表示一个文字。

  00000000 00000000 悟

  最多克表示2**16 = 65535个字符

ucs4

用固定的4个字节去表示一个文字。
  00000000 00000000 00000000 00000000 无
  最多可表示2**32 = 4294967296个字符

注意:unicode的应用:在文件存储和网络传输时,不会直接使用unicode,而在内存中会unicode。

4.utf-8编码

包含所有文字和二进制的对应关系,全球应用最为广泛的一种编码(站在巨人的肩膀上功成名就)。

本质上:utf-8是对unicode的压缩,用尽量少的二进制去与文字进行对应。

unicode码位范围 utf-8
0000 ~ 007F 用1个字节表示
0080 ~ 07FF 用2个字节表示
0800 ~ FFFF 用3个字节表示
10000 ~ 10FFFF 用4个字节表示

python相关编码:

字符串(str) "岁月流年逝去,冬去春又来" unicode处理 一般在内存
字节(byte) b"i love you hello world" utf-8编码 or gbk编码 一般用于文件或网络处理

# 字符串转换为字节类型

v2 = "流".encode("utf-8")
v2 = "流".encode("gbk")

# 把字节转换为字符串

old = data.decode("gbk")

posted @ 2022-09-13 19:34  夜落繁华时  阅读(336)  评论(0)    收藏  举报