ASCII 编码简介

转载：http://blog.csdn.net/u014785687/article/details/73928167

一、字符编码简介

1、ASCII编码
每一个ASCII码与一个8位（bit）二进制数对应。其最高位是0，相应的十进制数是0~127。例如，数字符号‘0’的编码用十进制数表示就是48。另有128个扩展的ASCII码，最高位都是1，由一些图形和画线符号组成。
ASCII用一个字节来表示字符，最多能表示256种字符。

ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码，使用7 位二进制数（剩下的1位二进制为0）来表示所有的大写和小写字母，数字0 到9、标点符号。

后128个称为扩展ASCII码。许多基于x86的系统都支持使用扩展（或“高”）ASCII。扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号。

2、ISO-8859-1编码
Latin1是ISO-8859-1的别名，有些环境下写作Latin-1。
ISO-8859-1编码是单字节编码，向下兼容ASCII，其中0~127的字符与ASCII码相同，其编码范围是0x00-0xFF，0x00-0x7F之间完全和ASCII一致，0x80-0x9F之间是控制字符，0xA0-0xFF之间是文字符号。

ISO-8859-1收录的字符除ASCII收录的字符外，还包括西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号。

因为ISO-8859-1编码范围使用了单字节内的所有空间，在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之，把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。

ASCII编码是一个7位的容器，ISO-8859-1编码是一个8位的容器。

ANSI编码
ANSI编码表示英文字符时用一个字节，表示中文用两个或四个字节。
在简体中文Windows操作系统中，ANSI 编码代表 GBK 编码；在繁体中文Windows操作系统中，ANSI编码代表Big5；在日文Windows操作系统中，ANSI 编码代表 Shift_JIS 编码。

单字节编码只有256个码位，不能满足中文的编码需要。
3、BIG5编码：
大五码（Big5），是通行于台湾、香港地区的一个繁体字编码方案。拥有13053个中文字、408个字符以及33个控制字元的字集。

4、GB2312编码
GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换，通行于中国大陆；新加坡等地也采用此编码。
每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”（也称“区字节）”，第二个字节称为“低位字节”（也称“位字节”）。

5、GBK编码
GBK编码，是在GB2312-80标准基础上的内码扩展规范，使用了双字节编码方案，共收录了21003个汉字，完全兼容GB2312-80标准，支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字，并包含了BIG5编码中的所有汉字。

GBK是采用单双字节变长编码，英文使用单字节编码，完全兼容ASCII字符编码，中文部分采用双字节编码。

6、Unicode编码
Unicode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。这就是Unicode，就像它的名字都表示的，这是一种所有符号的编码。Unicode当然是一个很大的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不一样。

Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。

汉字至少需要2个字节。表示其他更大的符号，可能需要3个字节或者4个字节，甚至更多。英文字母只用一个字节表示就够了，如果Unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储来说是极大的浪费。

因此，出现了Unicode的多种存储方式，也就是说有许多种不同的二进制格式，可以用来表示Unicode。其中UTF-8就是其中一种。

7、UTF-8
它并不是字符集，UTF-8就是在互联网上使用最广的一种Unicode的实现方式。UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。
UTF-8的编码规则很简单，只有二条：
1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

posted @ 2017-12-04 01:19 申不二阅读(926) 评论(0) 收藏举报

刷新页面返回顶部

申不二

Unicode/UTF-8/GBK/ASCII 编码简介

公告