Unicode vs. UTF-8 etc.

目测是个老问题了。随便一搜，网上各种总结过。这里不辞啰嗦，尽量简洁的备忘一下。

几个链接，有道云笔记链接，都是知乎上几个问题的摘录；阮一峰的日志，1-5 还是值得参考，但是之后的部分则混淆了 Windows Unicode 和更广泛意义上的 Unicode 的区别，前者最早是将 UCS-2 标准的编码称作 Unicode，win2k 之后则替换成了 UTF-16LE with BOM，但依然称作是 Unicode，terminology 层面的混淆极易坑人。

另外一个问题：为什么 UTF-8 不需要 BOM (byte order mark) 而 UTF-16 UTF-32 之类的需要？简而言之，前者是基于字节（byte oriented）的前缀匹配的解析规则，所以，顺着字节依次解析即可正确完成 UTF-8 encoding => number index => Unicode character 的解读；而无论是 UTF-16 还是 UTF-32 都存在「填充字节」的情况，所以依赖 byte order mark 来指定大小端。stackoverflow 一篇回答值得一读，另一个问题也不错。

In order to decide if a text uses UTF-16BE or UTF-16LE, the specification recommends to prepend a Byte Order Mark (BOM) to the string, representing the character U+FEFF. So, if the first two bytes of a UTF-16 encoded text file are FE, FF, the encoding is UTF-16BE. For FF, FE, it is UTF-16LE.

再附上一个问题链接：这篇回答讲述了为什么 Windows 会在 Unicode 的问题上引入如此易混淆的私有术语（整体归因于历史原因 & 微软不容动摇的向后兼容理念），并指出 ANSI 其实也和美国国家标准协会也没啥关系，实际上，字符编码里经常听闻的 ANSI 实际上是系统本地的编码格式，如简体中文的 ANSI 实则是 GBK 等等…… 这条回答则站在 ASCII 的角度，阐述了 Unicode 和 UTF-8 的区别，「UTF-8 is an encoding used to translate binary data into numbers. Unicode is a character set used to translate numbers into characters.」

最后，我们以「余」为例来讨论 Unicode 字符集和 UTF-8 编码。查询来源：Unicode 联合会的 code charts 的 Unihan 字符子集，可下载 pdf 或者通过在线数据库查询。

其 numerical index 编号是 20313 即 0x4f59（二进制形式：0100 1111 0101 1001），参考上文提到的日志，可知落在 3 个字节的编码范围里（也就是说，根据 UTF-8 的编码，需要 3 个 8 位的字节来表征），即「1110xxxx 10xxxxxx 10xxxxxx」，将上述 0x4f59 填入，便得到了「11100100 10111101 10011001」也就是 0xe4bd99。可通过在线查询的结果对比分析。

posted on 2014-02-26 14:10 mirrorwheel 阅读(407) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

ShakeProof

Unicode vs. UTF-8 etc.

导航

公告