GB18030与Unicode简介

Unicode用21位表示字符,可以表示200多万个,2 ** 20 = 1048576

  • UTF-8使用8位(1字节)到32位(4字节)不等的变长编码
  • UTF-16使用2字节或4字节的编码单元
  • UTF-32固定使用4字节编码单元
  • Unicode基本多文种平面(BMP)范围:0000到0xFFFF
  • 补充平面范围:0x10000到0x10FFFF (1 0000 1111 1111 1111 1111)

补充平面(Supplementary Planes)中的字符在UTF-16编码中需要使用代理对(Surrogate Pair)来表示,
比如:U+1F600的为0xDB00 0xDC00

Unicode 的 BOM(Byte Order Mark)是位于文本文件开头的特殊标记,
用于标识Unicode编码格式及字节顺序。

UTF-8的BOM为EF BB BF,UTF-16小端序为FF FE,大端序为FE FF。

U+2060表示零宽无间断间隔,有次AI生成的代码里有这个字符,编译不过,我瞪啊瞪啊。

这篇抄自AI,看HTML源码有大量的‌(Zero Width Non-Joiner)


GB18030-2000版收录了27,000多个汉字。

2005版在2000年版基础上增加了CJK统一汉字扩充B的汉字,但具体新增数量未在参考中明确说明。

新版《信息技术中文编码字符集》强制性国家标准(GB18030)共收录汉字 87,887个。


区位码是GB2312-80中定义的一种汉字编码方式,由四位十进制数字组成,前两位表示区号(范围01-94),后两位表示位号(范围01-94)。

符号区(01-09区):包含数字、标点、希腊字母等682个非汉字字符

一级汉字区(16-55区):3755个常用字,按拼音排序

二级汉字区(56-87区):3008个次常用字,按部首排序

空区(10-15区、88-94区):预留扩展使用

“啊”的区位码为1601,加上A0A0H得到GB2312编码。


Hexadecimal一词中,hexa源自希腊语,表示6

decimal: early 17th cent.: from modern Latin decimalis (adjective), from Latin decimus 'tenth’.

posted @ 2025-11-07 17:26  华容道专家  阅读(18)  评论(0)    收藏  举报