Unicode学习

各个国家的程序员,如何发出同一种声音?

什么是unicode

来自于百度百科的解释:

  统一码(Unicode),也叫万国码、单一码,是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求;

  Unicode码把全世界所有字符分别映射为一个二进制值,相当于给字符分配了一个id,这样然后大家就可以用统一的字符集了。统一字符集带来的好处就是,不同语言的字符级可以一起存储展示。如果各国的程序员都用一个编码,代码就可以像java一样,一次编译到处运行了。所以像我们国家的GB2312,也收录了包括拉丁字母、希腊字母、日文平假名及片假名字母等,不然,遇到

    “ waiter!上次Chris说最近会有anchovies(凤尾鱼)到了吗?”

  你该如何处理...

Unicode的基本概念

  代码点:代码点( code point) 是指与一个编码表中的某个字符对应的代码值;

  代码空间:所有的代码点构成一个 代码空间(Code Space),根据 Unicode 定义,总共有 1,114,112 个代码点,编号从 0x0-0x10FFFF。也就是支持 110 多万个字符。最新的 Unicode 标准(14.0)已经给144697个字符分配了代码点

  代码平面:Unicode 标准把代码点分成了 17 个代码平面(Code Plane),编号为 #0-#16。每个代码平面包含 65,536(2^16)个代码点(17*65,536=1,114,112)。 其中,Plane#0 叫做基本多语言平面(Basic Multilingual Plane,BMP),其余平面叫做补充平面(Supplementary Planes)

\[144697/65536 ≈ 2.207 \]

  目前应该用到第三个补充平面了

UTF-8

  占位

思考

  占位


posted on 2022-04-13 22:57  灰马非马  阅读(53)  评论(0编辑  收藏  举报

导航