汉字编码：GB2312, GBK, GB18030, Big5

前一篇博文：ANSI是什么编码？中有这样一段小故事：

话说计算机是由美国佬搞出来的嘛，他们觉得一个字节（可以表示256个编码）表示英语世界里所有的字母、数字和常用特殊符号已经绰绰有余了（其实ASCII只用了前127个编码）。后来欧洲人不干了，法国人说：我需要在小写字母加上变音符号（如：é），德国人说：我也要加几个字母（Ä ä、Ö ö、Ü ü、ß）。于是，欧洲人就将ASCII没用完的编码（128-255）为自己特有的符号编码（后来称之为“扩展字符集”）。等到我们中国人开始使用计算机的时候，尼玛，256个编码哪够？我泱泱大中华，汉字起码也得N多万吧，就连小学生都得要求掌握两三千字。国标局最后拍板：一个字节不够，那我们就用多个字节来为汉字编码吧，但是，国情那么穷，字节那么贵，三个字节伤不起，那就用俩字节吧，先给常用的几千汉字编个码，等以后国家强盛了人民富裕了，咱再扩展呗---于是GB2312就产生了。台湾同胞一看，尼玛，全是简体字，还让不让我们写繁体字的活了，于是台湾同胞也自己弄了个繁体字编码---大五码（Big-5）。...

它基本道出了GB2312和Big5的由来。

1. GB2312

GB2312字符集由中国国家标准总局1980年发布，其中收录了6763个常用汉字和682个其它符号（6763+682=7445），并将该字符集分为94个区，每个区94位，每个位对应一个字符或零个字符（94x94=8836，8836-7745=1391说明有1391个位置是空的）。

区号	内容
01-09区	特殊符号，如：标点符号、数字序列、全角字符、日语假名、拼音音标等
10-15区	空
16-55区	一级汉字，按拼音排序
56-87区	二级汉字，按部首/笔画排序
88-94区	空

如果将GB2312看做是一种“字符集”，则可以用多种编码方式对它进行编码。比如“区位码”就是对GB2312字符集最简单的一种编码方式，它直接使用区号和位号组成一个编码值（例如：GB2312字符集中的第一个汉字“啊”，它的区号为16，位号为01，它的区位码就是1601）。这里GB2312 编码列出了GB2312区位码编码。

但通常，人们所说的GB2312指的是一种编码（并且不是指区位码），它是指通常采用EUC方法对GB2312字符集中的“区”和“位”进行处理后的编码。EUC方法的处理方式：区号和位号分别加上0xA0，结果分别作为GB2312编码的两个字节的值（例如：“啊”字的区号和位号分别为16和01，即十六进制0x10和0x01，分别加0xA0得到编码0xB0A1），这样做是为了兼容ASCII编码（GB2312编码的俩字节都大于ASCII码的最大值）。这里GB2312简体中文编码表列出了通常更常用的GB2312编码。

有趣的是：GB2312中也收录了英文字母和数字等符号（ASCII码中也有这些符号），并且仍然是以俩字节编码，于是GB2312中的英文字母和数字等就成了我们平常所说的全角符号，而ASCII码的符号就叫做半角符号。

关于GB2312还有另一种声音：谁设计的GB2312，被日笨人说是抄的，尼玛，汉字都是我大中华的，谁抄谁啊...^_^

2. Big5

维基上说：Big5是由台湾财团法人信息产业策进会为五大中文套装软件（并因此得名Big-5）所设计的中文共通内码，在1983年12月完成公告。那个之前还没有繁体字编码，GB2312又不含繁体字，因此才有了Big-5。

传说Big5产生前，有着“中文电脑之父”之称的朱邦复也设计了一套中文编码，可容纳50000多字（包括繁体和简体），但是未被采纳。

3. GBK

话说Unicode 1.1推出时，收录了两万多个中日韩通用字符集的汉字，同一年我国也定制了相应的GB13000，但是一直未被业界采用。而微软利用了GB2312中未使用的编码空间，并且收录了GB13000中的全部字符，从而定制了GBK编码（虽然收录了GB13000的全部字符，但是编码方式并不相同），并且实现于Windows95中文版中。GBK自身并非国家标准，不过1995年由国标局等机构确定为“技术规范指导性文件”。

简单地说：GBK是从GB2312扩展而来的，支持繁体，并且兼容GB2312。例如：“啊”字的GB2312编码和GBK编码都为0xB0A1。

4. GB18030

GB2312和GBK都是用两个字节来编码的，就算用完所有的位（256*256=65536）也不够为所有的汉字编码。于是就有了目前最新的GB18030，它采用类似UTF-8的编码方式进行编码（每个字符的编码可以是1、2或4个字节），拥有上百万个编码空间，足以支持中日韩三国所有汉字，并且还可以支持国内少数民族的文字。

5. CJK

百度里输入CJK，即时搜索提示的第一项居然是“苍井空”！！！

好吧，它并不是一种编码方式，而是中日韩统一表意文字（CJK Unified Ideographs）。在Unicode中，收集各国相同的汉字，并且进行合并相同的编码点（code point）上，可以避免相同文字重复编码，浪费编码空间。

参考：

本系列文章包括：

转载请注明出处：http://www.cnblogs.com/malecrab/p/5300497.html

posted @ 2016-03-21 15:08 malecrab 阅读(13392) 评论(1) 收藏举报

刷新页面返回顶部

Malecrab

汉字编码：GB2312, GBK, GB18030, Big5

公告