[转帖]MiSans字库GB18030标准验证情况

https://zhuanlan.zhihu.com/p/663626158

 

 提供的信息,手机厂商终于见到跨入GB18030-2022实现级别3的进步。

 

MiSans网站提供两个汉字库下载和使用,MiSans FAQ也告知只要升级去Xiaomi HyperOS后,已可完整支持。

MiSans L3字体有以下说明:

MiSans 新增 60340 字符
符合 GB18030-2022 最新字符集国家标准
GB18030-2022 强制规范三个实现级别,于 2023 年 8 月 1 日起开始执行。实现级别1共 27,584个汉字;实现级别 2 包含实现级别 1,此外,实现级别 2 还支持《通用规范汉字表》中的没有包含在实现级别 1 之内的编码汉字,共计 27,780 个汉字;实现级别 3 包含实现级别 2,此外,实现级别 3 还支持新标准件规定的全部汉字及表 3 中的康熙部首,总计 87,887 个汉字,用于政务服务和公共服务的产品应满足实现级别 3 的要求。
MiSans 包含级别 1+ 级别 2,MiSans L3 为级别 3 字库(该字库不包含级别 1 和级别 2)。

实际下载字体后,汉字部分验证结果如下:

MiSans (Regular) :

CJK Unified Ideographs Extension A (6,582 out of 6,592 characters)
CJK Unified Ideographs (20,976 out of 20,992 characters)
CJK Compatibility Ideographs (21 out of 472 characters)
CJK Unified Ideographs Extension B (42 out of 42,720 characters)
CJK Unified Ideographs Extension C (44 out of 4,154 characters)
CJK Unified Ideographs Extension D (8 out of 222 characters)
CJK Unified Ideographs Extension E (108 out of 5,762 characters)

MiSans L3 (Regular) :

CJK Symbols and Punctuation (1 out of 64 characters)
CJK Unified Ideographs Extension B (42,675 out of 42,720 characters)
CJK Unified Ideographs Extension C (4,105 out of 4,154 characters)
CJK Unified Ideographs Extension D (214 out of 222 characters)
CJK Unified Ideographs Extension E (5,654 out of 5,762 characters)
CJK Unified Ideographs Extension F (7,473 out of 7,473 characters)
CJK Unified Ideographs Extension G (2 out of 4,939 characters)

值得宽慰的是,以前GBK-1995的PUA区字形,在这个版本中,已完全删除了,达到GB18030-2022的实际要求。

稍有遗憾的是:

  • 虽然扩展G有两个字,却与人名、地名无关,仅仅是两个biang字。
  • 基本区及扩展A末尾其实还有几个字,当前Unicode已填满,但目前字库只是按国标文本处理,并没有补齐。
  • 21个兼容区汉字,当前国标和国际标准,实际只承认使用12字,目前仍然是21个字,与国标不符

从行业来看,能跨出这一步,不失为一个正面的行动。但为了一个国家级公用服务字库,各个厂商各自造这么一个大型字库,除了浪费纳税人的银子外,其实并无可取之处。

如果你在用小米手机,不妨实际验证看看有什么帮助,或许输入法方面仍然是个障碍。
对于PUA字(很多生僻字人旧身份证在用),小米手机目前会不会像Linux一样显示内码,以便过渡,仍是一个疑问。

有关HyperOS,参见小米澎湃OS尝鲜计划,首批更新机型曝光_系列_Redmi_手机

延伸话题:GB18030-2022一号修改单(包含扩展GHI,尤其是扩展I的622人名、地名专用汉字),何时可以落地?

据相关人士信息,一号修改单已完成一征、二征,预计会进行三征,但从行业落地角度看,仍会面对三种类型的作为:

  1. 空谈无视型:GB/T 2312-1980就是标准,双字节扩展到GBK-1995已是恩赐,GBK外字用字人只是自讨苦吃而已。
  2. 循规蹈矩型:以“把书读死”为最高境界,GBK里有PUA就按照GBK做,GB18030是啥当不知道,即便知道也将52个双字节双码字让用字人自己去烦恼;或者做到GB18030-2022实现级别3的扩展F,完全不知急用加字区、扩展GHI的存在。
  3. 实干低调型:其实GB18030-2005开始,GB四字节编码与Unicode扩展16个平面的编码已经是线性算法映射关系,从字集来讲,自动跟随Unicode扩展集和急用加字只是举手之劳,做完并无任何烦恼,并为PUA转正打通最后1um的断头路,也是一件功德无量的事。先行者见 卓码之裕:GB18030-2022 第1号修改单达到落地实施条件

相关文章

WHATWG的GB18030-2022编码标准情况
Win11/Win10 22H2九月更新了什么?
放低陈见,将中文信息标准化落于实处
从“訛”字看中文信息化惡習之養成

posted @ 2024-04-16 13:22  济南小老虎  阅读(8)  评论(0编辑  收藏  举报