字符编码介绍
参考:http://www.cnblogs.com/lizhenghn/p/3690406.html
GB 2312 1981年5月发布
1、GB:国标拼音首字母;
2、共收入汉字6763个和非汉字图形字符682个;
GBK 1995年12月发布
1、 GBK:"国标"、"扩展"拼音首字母;
2、 GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1 国际标准(ISO 10646.1等同于GB 13000.1);
3、 共收录了21003个汉字,包含了GB2312中的全部字符,包含了BIG5编码中的所有汉字(BIG5是繁体字编码,通行于台湾、香港地区);
GB18030 GB18030-2000,于2000年发布
GB18030-2005,于2005年发布
1、 向下兼容 GBK 和 GB2312 标准;
2、 GB18030 编码是一二四字节变长编码;
3、 收入汉字70000余个,支持藏、蒙古、傣、彝、朝鲜、维吾尔文;
Unicode 1994年发布
-
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案;
UTF-8 Ken Thompson于1992年创建
1、 Unicode Transformation Format-8bit;
2、 是在互联网上使用最广的一种unicode的实现方式;
3、 UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度,因此可以节省存储空间;
4、 英文使用8位(即一个字节),中文使用24为(三个字节)来编码;
-
总结
-
ASCII用于表示英文字符,是用7位表示的,能表示128个字符;其扩展使用8位表示,表示256个字符;
-
GB2312简体中文的编码格式, 只支持6763个常用汉字;
-
GBK是GB2312基础上扩容后兼容GB2312的标准,包含全部中文字符,支持简体中文及繁体中文;
-
GBK通用性比UTF8差,不过UTF8占用的数据库比GBK大;
-
GB2312、GBK到GB18030都属于双字节字符集 (DBCS);
-
从ASCII、GB2312、GBK到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0;摘自:http://www.cnblogs.com/lizhenghn/p/3690406.html
posted on 2015-07-26 21:32 Waaaaaall-E 阅读(233) 评论(0) 收藏 举报
浙公网安备 33010602011771号