Unicode 标准 17.0版已经于2025.9.9发布

今天才注意到,Unicode 17.0版标准在9.9已经发布,新增了不少新的汉字(称为CJK扩展字符集J),但 大部分是日常生活中用不到的字符,主要是古汉(日韩)文献中用到的罕用字。
贴一张官方的说明如下(用谷歌翻译的英文内容):

Unicode 17

几个重点信息,1) 总CJK汉字超过了10万个 2)新增CJK EXT J区 3)新增了几个表情符号和沙特货币符号。 4)总字符数达到了159801个。

另外,想到了一个之前在抖音上看到的关于小学语文中一些字(比如“突”字)的字形变化,前后不一致,到底哪一个是标准字形的问题,我觉得可以参考Unicode标准中字形的来判断,它每个字符都有标准字符形状,也包括了主要变体的形状,最重要的是,它是国际标准,变动和调整字形时,远比现今国内教材的编辑要来得严谨与慎重,而且是广泛被认可,因此我认为更为权威和合理。具体你可以下载标准的字符集文件来看,PDF格式。

下载地址 Unicode 17.0 字符集

在Unicode 17.0的标准(上面是附录的字符集,不是标准本身的文本),可以看到CJK汉字的分布区域:

Unicode 17中的CJK汉字分布

以前在正则表达式中,为了判断一个字符是不是汉字,常用的方法就是看它的Unicode码值是不是在4E00-9FFF这个区间,从上图可以看出,正是对应了上表中第一行的字符集。要严格的表示,以下各行的码值范围内的字符也算。 或者就是根据字符的script属性来判断是不是汉字(并非每个正则引擎都支持这种判断)。

CJK的扩展集中,扩展I比较特殊,它是根据中国发布的一个公安系统等用到的姓名罕用字字集而临时增加的,为了兼容目的,所以标识为紧急增加的字符集。

posted @ 2025-09-25 00:12  dingxianghuan  阅读(199)  评论(0)    收藏  举报