UTF8 format

UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Translation Format(另一种说法为 UCS Translation Format)，即把Unicode转做某种格式的意思。UCS 和 Unicode 只是分配整数给字符的编码表. 现在存在好几种将一串字符表示为一串字节的方法。最显而易见的两种方法是将 Unicode 文本存储为 2 个或 4 个字节序列的串。这两种方法的正式名称分别为 UCS-2 和 UCS-4. 除非另外指定, 否则大多数的字节都是这样的(Bigendian convention)。将一个 ASCII 或 Latin-1 的文件转换成 UCS-2 只需简单地在每个 ASCII 字节前插入 0x00。如果要转换成 UCS-4, 则必须在每个 ASCII 字节前插入三个 0x00。

在 Unix 下使用 UCS-2 (或 UCS-4) 会导致非常严重的问题。用这些编码的字符串会包含一些特殊的字符, 比如或 '/', 它们在文件名和其他 C 库函数参数里都有特别的含义. 另外, 大多数使用 ASCII 文件的 UNIX 下的工具, 如果不进行重大修改是无法读取 16 位的字符的. 基于这些原因, 在文件名, 文本文件, 环境变量等地方, UCS-2 不适合作为 Unicode 的外部编码.

在 ISO 10646-1 Annex R 和 RFC 2279 里定义的 UTF-8 编码没有这些问题. 它是在 Unix 风格的操作系统下使用 Unicode 的明显的方法.

UTF-8的编码模式

UTF-8不使用大尾序和小尾序的形式。每个使用UTF-8储存的字符，除了第一个字节外，其余字节的头两个位都是以 "10" 开始，使文字处理器能够较快地找出每个字符的开始位置。

* 0xxxxxxx                                               (00-7f)
* 110xxxxx 10xxxxxx                                      (c0-df)(80-bf)
* 1110xxxx 10xxxxxx 10xxxxxx                             (e0-ef)(80-bf)(80-bf)
* 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx                    (f0-f7)(80-bf)(80-bf)(80-bf)
* 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx           (f8-fb)(80-bf)(80-bf)(80-bf)(80-bf)
* 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx  (fc-fd)(80-bf)(80-bf)(80-bf)(80-bf)(80-bf)

为了和UTF-16的编码空间一致，在最新的ISO 10646的标准里，最多只使用4字节编码。5字节及6字节UTF-8已不会再使用。

在UTF-8文件的开首，很多时都放置一个U+FEFF字符 (UTF-8 以 EF,BB,BF 代表)，以显示这个文本文件是以UTF-8编码。

UCS 字符 U+0000 到 U+007F (ASCII) 被编码为字节 0x00 到 0x7F (ASCII 兼容). 这意味着只包含 7 位 ASCII 字符的文件在 ASCII 和 UTF-8 两种编码方式下是一样的.

所有 >U+007F 的 UCS 字符被编码为一个多个字节的串, 每个字节都有标记位集. 因此, ASCII 字节 (0x00-0x7F) 不可能作为任何其他字符的一部分.

表示非 ASCII 字符的多字节串的第一个字节总是在 0xC0 到 0xFD 的范围里, 并指出这个字符包含多少个字节. 多字节串的其余字节都在 0x80 到 0xBF 范围里. 这使得重新同步非常容易, 并使编码无国界, 且很少受丢失字节的影响.

可以编入所有可能的 231个 UCS 代码

UTF-8 编码字符理论上可以最多到 6 个字节长, 然而 16 位 BMP 字符最多只用到 3 字节长.

Bigendian UCS-4 字节串的排列顺序是预定的.

字节 0xFE 和 0xFF 在 UTF-8 编码中从未用到.

xxx 的位置由字符编码数的二进制表示的位填入. 越靠右的 x 具有越少的特殊意义. 只用最短的那个足够表达一个字符编码数的多字节串. 注意在多字节串中, 第一个字节的开头"1"的数目就是整个串中字节的数目.

例如: Unicode 字符 U+00A9 = 1010 1001 (版权符号) 在 UTF-8 里的编码为:

11000010 10101001 = 0xC2 0xA9

而字符 U+2260 = 0010 0010 0110 0000 (不等于) 编码为:

11100010 10001001 10100000 = 0xE2 0x89 0xA0

这种编码的官方名字拼写为 UTF-8, 其中 UTF 代表 UCS Transformation Format. 请勿在任何文档中用其他名字 (比如 utf8 或 UTF_8) 来表示 UTF-8, 当然除非你指的是一个变量名而不是这种编码本身.

支持Unicode的编程语言

在大约 1993 年之后开发的大多数现代编程语言都有一个特别的数据类型, 叫做 Unicode/ISO 10646-1 字符. 在 Ada95 中叫 Wide_Character, 在 Java 中叫 char.（注：Java使用的是UTF-16）

ISO C 也详细说明了处理多字节编码和宽字符 (wide characters) 的机制, 1994 年 9 月 Amendment 1 to ISO C 发表时又加入了更多. 这些机制主要是为各类东亚编码而设计的, 它们比处理 UCS 所需的要健壮得多. UTF-8 是 ISO C 标准调用多字节字符串的编码的一个例子, wchar_t 类型可以用来存放 Unicode 字符. 它定义于ISO 10646，而RFC3629也定义了相似的做法。

使用UTF-8的原因

由于要使文本文件之中的文字与ASCII兼容，故此 UTF-8 选择了使用可变长度字节来储存 Unicode ，例如ASCII字母继续使用1字节储存，重音文字、希腊字母或西里尔字母等使用2字节来储存，而常用的汉字就要使用3字节。辅助平面字符则使用4字节。网页编码使用UTF-8，可以在同一个网页上很好地显示多个国家的字符而不出现乱码。

对 UTF-8 的批评

UTF-8 使用可变长度字节储存，使计算机程序设计变得复杂。 (故此，在计算机程序或操作系统内部，多采用UCS-2编码。)

在旧式的中文、日文及韩文编码之中，每字符都使用2字节储存，而UTF-8须使用3字节。 (采用UTF-16编码则可只使用2字节储存。)

泰语以往使用的ISO 8859-11，每字符只使用1字节储存，而UTF-8须使用3字节。

此外，在Windows XP版本中的记事本程序如果保存的是编码类似于UTF-8的GB2312字符，保存重新打开后将错误显示。例如：使用记事本输入“联通”两个字或“毛”字保存后再打开显示错误，如果不全是编码类似于UTF-8的GB2312字符则不会出现这种情况。

外部连结

Rob Pike tells the story of UTF-8's creation
Original UTF-8 paper
RFC 3629, UTF-8 标准
RFC 2277, IETF policy on character sets and languages
UTF-8 和 Unicode FAQ
UTF-8
UTF-8 测试页
另一个 UTF-8 测试页
UTF-8 and Debian 和 Linux UTF-8 How-To。
UTF-8 繁简转换

posted @ 2009-02-10 17:27 渡己 Views(659) Comments(0) 收藏举报

刷新页面返回顶部

Alpha's Blog

每天早叫醒我的不应是闹钟，而应是梦想！