字符编码基础

字符编码

1. 常见字符编码方法¹

1.1 ASCII 码

在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位（bit）有 0 和 1 两种状态，因此八个二进制位就可以组合出 256 种状态，这被称为一个字节（byte）。也就是说，一个字节一共可以用来表示 256 种不同的状态，即 256 个符号，从 00000000 到 11111111。

上个世纪 60 年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为 ASCII 码，一直沿用至今。

ASCII 码一共规定了 128 个字符 (00000000 - 01111111，即 0 - 127) 的编码，比如空格”SPACE”是 32（二进制00100000），大写的字母 A 是 65（二进制01000001）。这 128 个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面 7 位，最前面的 1 位统一规定为 0。

ASCII码大致可以分作:

ASCII非打印控制字符，ASCII表上的数字0–31分配给了控制字符，用于控制像打印机等一些外围设备。
ASCII打印字符，数字 32–127 分配给了能在键盘上找到的字符，当您查看或打印文档时就会出现。

Tips:详细 ASCII 码表信息

1.2 非 ASCII 编码

英语用 128 个符号编码就够了，但是用来表示其他语言，128 个符号是不够的。比如，在法语中，字母上方有注音符号，它就无法用 ASCII 码表示。于是，一些欧洲国家就决定，利用字节中闲置的最高位编入新的符号。比如，法语中的 é 的编码为 130（二进制10000010）。这样一来，这些欧洲国家使用的编码体系，可以表示最多 256 个符号。

但是，这里又出现了新的问题。不同的国家有不同的字母，因此，哪怕它们都使用 256 个符号的编码方式，代表的字母却不一样。比如，130 在法语编码中代表了 é，在希伯来语编码中却代表了字母 Gimel (ג)，在俄语编码中又会代表另一个符号。但是不管怎样，所有这些编码方式中，0—127 表示的符号是一样的，不一样的只是 128—255 的这一段。

一种扩展 ASCII 码

至于亚洲国家的文字，使用的符号就更多了，汉字就多达 10 万左右。一个字节只能表示 256 种符号，肯定是不够的，就必须使用多个字节表达一个符号。比如，简体中文常见的编码方式是 GB2312，使用两个字节表示一个汉字，所以理论上最多可以表示 256x256=65536 个符号。

1.3 Unicode

世界上存在着多种编码方式，同一个二进制数字可以被解释成不同的符号。因此，要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。为什么电子邮件常常出现乱码？就是因为发信人和收信人使用的编码方式不一样。

可以想象，如果有一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。这就是 Unicode（Universal Multiple-Octet Coded Character Set），简称为 UCS。

历史上存在两个试图独立设计 Unicode 的组织，即国际标准化组织（ISO）和一个软件制造商的协会（unicode.org）。ISO开发了 ISO 10646 项目，Unicode 协会开发了 Unicode 项目。

在 1991 年前后，双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果，并为创立一个单一编码表而协同工作。从 Unicode2.0 开始，Unicode 项目采用了与 ISO 10646-1 相同的字库和字码。

目前两个项目仍都存在，并独立地公布各自的标准。Unicode 协会现在的最新版本是 2005 年的 Unicode 4.1.0。ISO 的最新标准是 10646-3:2003。

Unicode 当然是一个很大的集合，现在的规模可以容纳 100 多万个符号。每个符号的编码都不一样，比如，U+0639 表示阿拉伯字母 Ain，U+0041 表示英语的大写字母 A，U+4E25 表示汉字 “严”。

Unicode 只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。

这里就有两个严重的问题，第一个问题是，如何才能区别 Unicode 和 ASCII ？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果 Unicode 统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是 0，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的。

1.4 UTF-8

UCS 规定了怎么用多个字节表示各种文字。怎样传输这些编码，是由 UTF (UCS Transformation Format) 规范规定的，常见的 UTF 规范包括 UTF-8、UTF-16、UTF-32。

UTF-8是在互联网上使用最广的一种 Unicode 的实现方式。其他实现方式还包括 UTF-16（字符用两个字节或四个字节表示）和 UTF-32（字符用四个字节表示），不过在互联网上基本不用。重复一遍，这里的关系是，UTF-8 是 Unicode 的实现方式之一。

UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用 1~4 个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8的编码规则很简单，只有二条：

对于单字节的符号，字节的第一位设为 0，后面 7 位为这个符号的 unicode 码。因此对于英语字母，UTF-8 编码和ASCII 码是相同的。
对于 n 字节的符号（n>1），第一个字节的前 n 位都设为 1，第 n+1 位设为 0，后面字节的前两位一律设为 10。剩下的没有提及的二进制位，全部为这个符号的 unicode 码。

Unicode符号范围 (十六进制)	UTF-8编码方式 (二进制)
0000 0000 - 0000 007F	0xxxxxxx
0000 0080 - 0000 07FF	110xxxxx 10xxxxxx
0000 0800 - 0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000 - 0010 FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

例如“汉”字的 Unicode 编码是 6C49。6C49 在 0800-FFFF 之间，所以肯定要用 3 字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将 6C49 写成二进制是：0110 110001 001001，用这个比特流依次代替模板中的 x，得到：11100110 10110001 10001001，即 E6 B1 89。

2. 大端机和小端机²

不同的CPU有不同的字节序类型，这些字节序是指整数在内存中保存的顺序。

最常见的有两种：

小端机 LE（little-endian）：将低序字节存储在起始地址（低位编址）

最符合人的思维的字节序，地址低位存储值的低位，地址高位存储值的高位

为什么说是最符合人的思维的字节序，是因为从人的第一观感来说，低位值小，就应该放在内存地址小的地方，也即内存地址低位；反之，高位值就应该放在内存地址大的地方，也即内存地址高位。
大端机 BE（big-endian）：将高序字节存储在起始地址（高位编址）

最直观的字节序，地址低位存储值的高位，地址高位存储值的低位

为什么说直观，不要考虑对应关系，只需要把内存地址从左到右按照由低到高的顺序写出，把值按照通常的高位到低位的顺序写出，两者对照，一个字节一个字节的填充进去。

简单地说，低位字节存放数据的高位就是大端，低位就是小端。

“endian” 这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开，由此曾发生过六次叛乱，其中一个皇帝送了命，另一个丢了王位。

例：如果我们将 0x1234abcd 写入到以 0x0000 开始的内存中，则结果为

地址	big-endian	little-endian
0x0000	0x12	0xcd
0x0001	0x23	0xab
0x0002	0xab	0x34
0x0003	0xcd	0x12

x86 系列的 CPU 都是 little-endian 的字节序。

那么很自然的，就会出现一个问题：计算机怎么知道某一个文件到底采用哪一种方式编码？

Unicode 规范中定义，每一个文件的最前面分别加入一个表示编码顺序的字符，这个字符的名字叫做”零宽度非换行空格”（ZERO WIDTH NO-BREAK SPACE），用 FEFF 表示。这正好是两个字节，而且 FF 比 FE 大 1。

如果一个文本文件的头两个字节是 FE FF，就表示该文件采用大头方式；如果头两个字节是 FF FE，就表示该文件采用小头方式。

3. BMP 和 BOM³

3.1 UCS-2、UCS-4、BMP

UCS 有两种格式：UCS-2 和 UCS-4。顾名思义，UCS-2 就是用两个字节编码，UCS-4 就是用 4 个字节（实际上只用了 31 位，最高位必须为 0）编码。下面让我们做一些简单的数学游戏：

UCS-2 有 2^16 个码位，UCS-4 有 2^31 个码位。

UCS-4根据最高位为0的最高字节分成 128 个 group。每个 group 再根据次高字节分为 256 个 plane。每个 plane 根据第 3 个字节分为 256 行 (rows)，每行包含 256 个 cells。当然同一行的cells 只是最后一个字节不同，其余都相同。

group 0 的 plane 0 被称作 Basic Multilingual Plane, 即 BMP。或者说 UCS-4 中，高两个字节为 0 的码位被称作 BMP。

将 UCS-4 的 BMP 去掉前面的两个零字节就得到了 UCS-2。在 UCS-2 的两个字节前加上两个零字节，就得到了 UCS-4 的 BMP。而目前的 UCS-4 规范中还没有任何字符被分配在 BMP 之外。

3.2 UTF 的字节序和 BOM

UTF-8 以字节为编码单元，没有字节序的问题。UTF-16 以两个字节为编码单元，在解释一个 UTF-16 文本前，首先要弄清楚每个编码单元的字节序。例如收到一个 “奎” 的 Unicode 编码是 594E，“乙” 的 Unicode 编码是 4E59。如果我们收到 UTF-16 字节流 “594E”，那么这是 “奎” 还是 “乙”？

Unicode 规范中推荐的标记字节顺序的方法是 BOM。所谓 BOM，全称是 Byte Order Mark，它是一个Unicode 字符，通常出现在文本的开头，用来标识字节序（Big/Little Endian），除此以外还可以标识编码（UTF-8/16/32），如果出现在文本中间，则解释为 “zero width no-break space”，它的编码是 FEFF。而 FEFF 在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符 “zero width no-break space”。

这样如果接收者收到 FEFF，就表明这个字节流是 Big-Endian 的；如果收到 FFFE，就表明这个字节流是 Little-Endian 的。因此字符 “zero width no-break space” 又被称作 BOM。

UTF-8 不需要 BOM 来表明字节顺序，但可以用 BOM 来表明编码方式。字符 “zero width no-break space” 的 UTF-8 编码是 EF BB BF。

UTF-8 主要的优点是可以兼容 ASCII，但如果使用 BOM 的话，这个好处就荡然无存了，除此以外，BOM的存在还可能引发一些问题，比如下面错误便都有可能是 BOM 导致的：

Shell: No such file or directory

PHP: Warning: Cannot modify header information – headers already sent

4. 汉字编码简介（待补充…）³

为了处理汉字，程序员设计了用于简体中文的 GB2312 和用于繁体中文的 big5。

GB2312(1980年)一共收录了 7445 个字符，包括 6763 个汉字和 682 个其它符号。汉字区的内码范围高字节从 B0-F7，低字节从 A1-FE，占用的码位是 72*94=6768。其中有 5 个空位是 D7FA-D7FE。

GB2312 支持的汉字太少。1995 年的汉字扩展规范 GBK1.0 收录了 21886 个符号，它分为汉字区和图形符号区。汉字区包括 21003 个字符。2000 年的 GB18030 是取代 GBK1.0 的正式国家标准。该标准收录了 27484 个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的 PC 平台必须支持 GB18030，对嵌入式产品暂不作要求。所以手机、MP3 一般只支持 GB2312。

从 ASCII、GB2312、GBK 到 GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为 0。按照程序员的称呼，GB2312、GBK 到 GB18030 都属于双字节字符集 (DBCS)。

posted @ 2015-09-30 09:59 m_CHaN 阅读(524) 评论(0) 收藏举报

刷新页面返回顶部

Frey's Farm

Wir mussen wissen, Wir werden wissen！

字符编码基础

字符编码

1. 常见字符编码方法¹

1.1 ASCII 码

1.2 非 ASCII 编码

1.3 Unicode

1.4 UTF-8

2. 大端机和小端机²

3. BMP 和 BOM³

3.1 UCS-2、UCS-4、BMP

3.2 UTF 的字节序和 BOM

4. 汉字编码简介（待补充…）³

Frey's Farm

Wir mussen wissen, Wir werden wissen！

字符编码基础

字符编码

1. 常见字符编码方法1

1.1 ASCII 码

1.2 非 ASCII 编码

1.3 Unicode

1.4 UTF-8

2. 大端机和小端机2

3. BMP 和 BOM3

3.1 UCS-2、UCS-4、BMP

3.2 UTF 的字节序和 BOM

4. 汉字编码简介（待补充…）3

1. 常见字符编码方法¹

2. 大端机和小端机²

3. BMP 和 BOM³

4. 汉字编码简介（待补充…）³