UTF8 format
UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Translation Format(另一种说法为 UCS Translation Format),即把Unicode转做某种格式的意思。UCS 和 Unicode 只是分配整数给字符的编码表. 现在存在好几种将一串字符表示为一串字节的方法。最显而易见的两种方法是将 Unicode 文本存储为 2 个 或 4 个字节序列的串。这两种方法的正式名称分别为 UCS-2 和 UCS-4. 除非另外指定, 否则大多数的字节都是这样的(Bigendian convention)。将一个 ASCII 或 Latin-1 的文件转换成 UCS-2 只需简单地在每个 ASCII 字节前插入 0x00。如果要转换成 UCS-4, 则必须在每个 ASCII 字节前插入三个 0x00。
在 Unix 下使用 UCS-2 (或 UCS-4) 会导致非常严重的问题。用这些编码的字符串会包含一些特殊的字符, 比如 或 '/', 它们在 文件名和其他 C 库函数参数里都有特别的含义. 另外, 大多数使用 ASCII 文件的 UNIX 下的工具, 如果不进行重大修改是无法读取 16 位的字符的. 基于这些原因, 在文件名, 文本文件, 环境变量等地方, UCS-2 不适合作为 Unicode 的外部编码.
在 ISO 10646-1 Annex R 和 RFC 2279 里定义的 UTF-8 编码没有这些问题. 它是在 Unix 风格的操作系统下使用 Unicode 的明显的方法.
目录
[隐藏]
UTF-8的编码模式
UTF-8不使用大尾序和小尾序的形式。每个使用UTF-8储存的字符,除了第一个字节外,其余字节的头两个位都是以 "10" 开始,使文字处理器能够较快地找出每个字符的开始位置。
* 0xxxxxxx (00-7f) * 110xxxxx 10xxxxxx (c0-df)(80-bf) * 1110xxxx 10xxxxxx 10xxxxxx (e0-ef)(80-bf)(80-bf) * 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx (f0-f7)(80-bf)(80-bf)(80-bf) * 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx (f8-fb)(80-bf)(80-bf)(80-bf)(80-bf) * 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx (fc-fd)(80-bf)(80-bf)(80-bf)(80-bf)(80-bf)
为了和UTF-16的编码空间一致,在最新的ISO 10646的标准里,最多只使用4字节编码。5字节及6字节UTF-8已不会再使用。
在UTF-8文件的开首,很多时都放置一个U+FEFF字符 (UTF-8 以 EF,BB,BF 代表),以显示这个文本文件是以UTF-8编码。
UCS 字符 U+0000 到 U+007F (ASCII) 被编码为字节 0x00 到 0x7F (ASCII 兼容). 这意味着只包含 7 位 ASCII 字符的文件在 ASCII 和 UTF-8 两种编码方式下是一样的.
所有 >U+007F 的 UCS 字符被编码为一个多个字节的串, 每个字节都有标记位集. 因此, ASCII 字节 (0x00-0x7F) 不可能作为任何其他字符的一部分.
表示非 ASCII 字符的多字节串的第一个字节总是在 0xC0 到 0xFD 的范围里, 并指出这个字符包含多少个字节. 多字节串的其余字节都在 0x80 到 0xBF 范围里. 这使得重新同步非常容易, 并使编码无国界, 且很少受丢失字节的影响.
可以编入所有可能的 231个 UCS 代码
UTF-8 编码字符理论上可以最多到 6 个字节长, 然而 16 位 BMP 字符最多只用到 3 字节长.
Bigendian UCS-4 字节串的排列顺序是预定的.
字节 0xFE 和 0xFF 在 UTF-8 编码中从未用到.
xxx 的位置由字符编码数的二进制表示的位填入. 越靠右的 x 具有越少的特殊意义. 只用最短的那个足够表达一个字符编码数的多字节串. 注意在多字节串中, 第一个字节的开头"1"的数目就是整个串中字节的数目.
例如: Unicode 字符 U+00A9 = 1010 1001 (版权符号) 在 UTF-8 里的编码为:
11000010 10101001 = 0xC2 0xA9
而字符 U+2260 = 0010 0010 0110 0000 (不等于) 编码为:
11100010 10001001 10100000 = 0xE2 0x89 0xA0
这种编码的官方名字拼写为 UTF-8, 其中 UTF 代表 UCS Transformation Format. 请勿在任何文档中用其他名字 (比如 utf8 或 UTF_8) 来表示 UTF-8, 当然除非你指的是一个变量名而不是这种编码本身.
支持Unicode的编程语言
在大约 1993 年之后开发的大多数现代编程语言都有一个特别的数据类型, 叫做 Unicode/ISO 10646-1 字符. 在 Ada95 中叫 Wide_Character, 在 Java 中叫 char.(注:Java使用的是UTF-16)
ISO C 也详细说明了处理多字节编码和宽字符 (wide characters) 的机制, 1994 年 9 月 Amendment 1 to ISO C 发表时又加入了更多. 这些机制主要是为各类东亚编码而设计的, 它们比处理 UCS 所需的要健壮得多. UTF-8 是 ISO C 标准调用多字节字符串的编码的一个例子, wchar_t 类型可以用来存放 Unicode 字符. 它定义于ISO 10646,而RFC3629也定义了相似的做法。
使用UTF-8的原因
由于要使文本文件之中的文字与ASCII兼容,故此 UTF-8 选择了使用可变长度字节来储存 Unicode ,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅助平面字符则使用4字节。网页编码使用UTF-8,可以在同一个网页上很好地显示多个国家的字符而不出现乱码。
对 UTF-8 的批评
UTF-8 使用可变长度字节储存,使计算机程序设计变得复杂。 (故此,在计算机程序或操作系统内部,多采用UCS-2编码。)
在旧式的中文、日文及韩文编码之中,每字符都使用2字节储存,而UTF-8须使用3字节。 (采用UTF-16编码则可只使用2字节储存。)
泰语以往使用的ISO 8859-11,每字符只使用1字节储存,而UTF-8须使用3字节。
此外,在Windows XP版本中的记事本程序如果保存的是编码类似于UTF-8的GB2312字符,保存重新打开后将错误显示。例如:使用记事本输入“联通”两个字或“毛”字保存后再打开显示错误,如果不全是编码类似于UTF-8的GB2312字符则不会出现这种情况。
外部连结
- Rob Pike tells the story of UTF-8's creation
- Original UTF-8 paper
- RFC 3629, UTF-8 标准
- RFC 2277, IETF policy on character sets and languages
- UTF-8 和 Unicode FAQ
- UTF-8
- UTF-8 测试页
- 另一个 UTF-8 测试页
- UTF-8 and Debian 和 Linux UTF-8 How-To。
- UTF-8 繁简转换

浙公网安备 33010602011771号