GB18030与Unicode简介

Unicode用21位表示字符，可以表示200多万个，2 ** 20 = 1048576

补充平面（Supplementary Planes）中的字符在UTF-16编码中需要使用代理对（Surrogate Pair）来表示，
比如：U+1F600的为0xDB00 0xDC00

Unicode 的 BOM（Byte Order Mark）是位于文本文件开头的特殊标记，
用于标识Unicode编码格式及字节顺序。

UTF-8的BOM为EF BB BF，UTF-16小端序为FF FE，大端序为FE FF。

U+2060表示零宽无间断间隔，有次AI生成的代码里有这个字符，编译不过，我瞪啊瞪啊。

这篇抄自AI，看HTML源码有大量的&zwnj;（Zero Width Non-Joiner)

GB18030-2000版收录了27,000多个汉字。

2005版在2000年版基础上增加了CJK统一汉字扩充B的汉字，但具体新增数量未在参考中明确说明。

新版《信息技术中文编码字符集》强制性国家标准（GB18030）共收录汉字 87,887个。

区位码是GB2312-80中定义的一种汉字编码方式，由四位十进制数字组成，前两位表示区号（范围01-94），后两位表示位号（范围01-94）。

符号区（01-09区）：包含数字、标点、希腊字母等682个非汉字字符

一级汉字区（16-55区）：3755个常用字，按拼音排序

二级汉字区（56-87区）：3008个次常用字，按部首排序

空区（10-15区、88-94区）：预留扩展使用

“啊”的区位码为1601，加上A0A0H得到GB2312编码。

Hexadecimal一词中，hexa源自希腊语，表示6

decimal: early 17th cent.: from modern Latin decimalis (adjective), from Latin decimus 'tenth’.

posted @ 2025-11-07 17:26 华容道专家阅读(50) 评论(0) 收藏举报

刷新页面返回顶部

Penilum meum pullo sententia Latin a est 「通过浪费时间获得快乐」