文本字符集与编码

ANSI：系统预设的标准文字储存格式。ANSI是American National Standards Institute的缩写。它成立于1918年，是一个自愿性的组织，拥有超过1300个会员，包括所有大型的电脑公司。ANSI专为电脑工业建立标准，它是世界上相当重要的标准。

Unicode：世界上所有主要指令文件的联集，包括商业和个人电脑所使用的公用字集。当采用Unicode格式储存文件时，可使用Unicode控制字符辅助说明语言的文字覆盖范围，如阿拉伯语、希伯来语。用户在“记事本”中输入含有Unicode字符的文字并储存文件时，系统会提示你必须选取“另存为”中的Unicode编码，这些字符才不会被遗失。需要提醒大家的是，部分Windows 2000字型无法显示所有的Unicode字符。如果发现文件中缺少了某些字符，只需将其变更为其它字型即可。

Unicode big endian：在Big-endian处理器（如苹果Macintosh电脑）上建立的Unicode文件中的文字位元组（存放单位）排列顺序，与在Intel处理器上建立的文件的文字位元组排列顺序相反。最重要的位元组拥有最低的地址，且会先储存文字中较大的一端。为使这类电脑的用户能够存取你的文件，可选择Unicode big-endian格式。

UTF-8：UTF意为通用字集转换格式(Universal Character Set Transformation Format)，UTF-8是Unicode的8位元格式。如果使用只能在同类位元组内支持8个位元的重要资料一类的旧式传输媒体，可选择UTF-8格式。

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/brant_song/archive/2007/12/20/1955790.aspx

unicode和ansi都是字符代码的一种表示形式。

不同的国家和地区制定了不同的标准，由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。在简体中文系统下，ANSI 编码代表 GB2312 编码，在日文操作系统下，ANSI 编码代表 JIS 编码。
不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。

当一个软件打开一个文本时，它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的

最标准的途径是检测文本最开头的几个字节，开头字节 Charset/encoding,如下表：
EF BB BF UTF-8
FF FE UTF-16/UCS-2, little endian
FE FF UTF-16/UCS-2, big endian
FF FE 00 00 UTF-32/UCS-4, little endian.
00 00 FE FF UTF-32/UCS-4, big-endian.

编码指不同国家的语言在计算机中的一种存储和解释规范。

- ASCII(American Standard Code for Information Interchange)：使用7 bits表示一个字符，总共128个。

-- ISO-8859-1：将ASCII扩展到0~255后的字符集。

- ANSI(American National Institute)字符集：ASCII字符集，以及由此派生并兼容的字符集，正式的名称为MBCS(Multi-Byte Chactacter System)。如GB2312，GBK。

-- GB2312：简体中文字符集。它的第一个字节为128-255。系统可以据此判断，若第一个字节大于127，则把与该字节后紧接着的一个字节结合起来共两个字节组成一个中文字符。ASCII是其子集。

-- GBK：GBK是现阶段Windows及其他一些中文操作系统的缺省字符集。它包含2万多个字符，除了保持和GB2312兼容外，还包含繁体中文字，日文字符和朝鲜字符。值得注意的是GBK只是一个规范而不是国家标准，新的国家标准是GB18030-2000，它是比GBK包含字符更多的字符集。

-- Big5：台湾地区所使用的繁体中文字符集，编码方式与GB2312类似。

- Unicode(UTF-16: UCS Transformation Format)：固定使用16 bits（两个字节）表示一个字符，总共65536个。

-- UTF-8：为了双字节的Unicode能够在现存的处理单字节的系统上正确传输设计。

UCS 字符U+0000 到U+007F (ASCII) 被编码为字节0x00到0x7F (ASCII 兼容)。这意味着只包含7位ASCII 字符的文件在ASCII和UTF-8 两种编码方式下是一样的。

所有>U+007F 的UCS 字符被编码为一个多个字节的串，每个字节都有标记位集。因此，ASCII 字节 (0x00-0x7F) 不可能作为任何其他字符的一部分。

表示非 ASCII 字符的多字节串的第一个字节总是在0xC0到0xFD 的范围里, 并指出这个字符包含多少个字节。多字节串的其余字节都在0x80到0xBF范围里。这使得重新同步非常容易，并使编码无国界，且很少受丢失字节的影响。

与Unicode的映射关系如下：

　　　　Unicode编码(16进制)　　　　　UTF-8 字节流(二进制)
　　　　0000 - 007F　　　　　　　　　0xxxxxxx
　　　　0080 - 07FF　　　　　　　　　110xxxxx 10xxxxxx
　　　　0800 - FFFF　　　　　　　　　1110xxxx 10xxxxxx 10xxxxxx

附1：当一个软件打开一个文本时，它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件一般采用三种方式来决定文本的字符集和编码：检测文件头标识；提示用户选择；根据一定的规则猜测。
最标准的途径是检测文本最开头的几个字节，如下表：
　　　　EF BB BF       UTF-8
　　　　FE FF              UTF-16/UCS-2, little endian
　　　　FF FE              UTF-16/UCS-2, big endian
　　　　FF FE 00 00 UTF-32/UCS-4, little endian.
　　　　00 00 FE FF UTF-32/UCS-4, big-endian.

附2：Big Endian是指低地址存放最高有效字节（MSB: Most Significant Byte），而Little Endian则是低地址存放最低有效字节（LSB: Least Significant Byte）。

[Big Endian]

   低地址                                            高地址
   ----------------------------------------->
   +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
   |     12     |      34    |     56      |     78    |
   +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

[Little Endian]

   低地址                                            高地址
   ----------------------------------------->
   +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
   |     78     |      56    |     34      |     12    |
   +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

posted on 2009-12-26 11:18 的确小凉阅读(338) 评论(0) 收藏举报