Unicode学习
各个国家的程序员,如何发出同一种声音?
来自于百度百科的解释:
统一码(Unicode),也叫万国码、单一码,是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求;
Unicode码把全世界所有字符分别映射为一个二进制值,相当于给字符分配了一个id,这样然后大家就可以用统一的字符集了。统一字符集带来的好处就是,不同语言的字符级可以一起存储展示。如果各国的程序员都用一个编码,代码就可以像java一样,一次编译到处运行了。所以像我们国家的GB2312,也收录了包括拉丁字母、希腊字母、日文平假名及片假名字母等,不然,遇到
“ waiter!上次Chris说最近会有anchovies(凤尾鱼)到了吗?”
你该如何处理...
代码点:代码点( code point) 是指与一个编码表中的某个字符对应的代码值;
代码空间:所有的代码点构成一个 代码空间(Code Space),根据 Unicode 定义,总共有 1,114,112 个代码点,编号从 0x0-0x10FFFF。也就是支持 110 多万个字符。最新的 Unicode 标准(14.0)已经给144697个字符分配了代码点
代码平面:Unicode 标准把代码点分成了 17 个代码平面(Code Plane),编号为 #0-#16。每个代码平面包含 65,536(2^16)个代码点(17*65,536=1,114,112)。 其中,Plane#0 叫做基本多语言平面(Basic Multilingual Plane,BMP),其余平面叫做补充平面(Supplementary Planes)
目前应该用到第三个补充平面了
占位
占位