Unicode学习

什么是unicode

来自于百度百科的解释：

统一码（Unicode），也叫万国码、单一码，是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求；

Unicode码把全世界所有字符分别映射为一个二进制值，相当于给字符分配了一个id，这样然后大家就可以用统一的字符集了。统一字符集带来的好处就是，不同语言的字符级可以一起存储展示。如果各国的程序员都用一个编码，代码就可以像java一样，一次编译到处运行了。所以像我们国家的GB2312，也收录了包括拉丁字母、希腊字母、日文平假名及片假名字母等，不然，遇到

“ waiter！上次Chris说最近会有anchovies（凤尾鱼）到了吗？”

你该如何处理...

Unicode的基本概念

代码点：代码点（ code point) 是指与一个编码表中的某个字符对应的代码值；

代码空间：所有的代码点构成一个代码空间（Code Space），根据 Unicode 定义，总共有 1,114,112 个代码点，编号从 0x0-0x10FFFF。也就是支持 110 多万个字符。最新的 Unicode 标准（14.0）已经给144697个字符分配了代码点

代码平面：Unicode 标准把代码点分成了 17 个代码平面（Code Plane），编号为 #0-#16。每个代码平面包含 65,536（2^16）个代码点（17*65,536=1,114,112）。其中，Plane#0 叫做基本多语言平面（Basic Multilingual Plane，BMP），其余平面叫做补充平面（Supplementary Planes）

\[144697/65536 ≈ 2.207 \]

目前应该用到第三个补充平面了

UTF-8

占位

思考

占位

posted on 2022-04-13 22:57 灰马非马阅读(114) 评论(0) 收藏举报

刷新页面返回顶部

灰马非马

Unicode学习

导航

公告