字符识别数据集(一)汉字编码

Big5编码


  • 台湾国标繁体编码13053个
  • BIG5采用双字节编码,使用两个字节来表示一个字符。高位字节使用了0x81-0xFE,低位字节使用了0x40-0x7E,及0xA1-0xFE。
  • BIG5编码范围:8140-FEFE,其中汉字编码范围:A440-F9DC。
编码范围 字符数
造字区 8140-A0FE
符号区 A140-A3BF
保留 A3C0-A3FE
常用汉字区 A440-C67E
其他汉字区 C6A1-F9DC
制表符 F9DD-F9FE
值得留意的是,BIG5重复地收录了两个相同的字:“兀、兀”(A461及C94A)、“嗀、嗀”(DCD1及DDFC)。

Unicode编码(世界各国文字编码大全)


汉字区:

编码范围 字符数
基本汉字 4E00-9FA5 20902
基本汉字补充 9FA6-9FEF 74
扩展A 3400-4DB5 6582
扩展B 20000-2A6D6 42711
扩展C 2A700-2B734 4149
扩展D 2B740-2B81D 222
扩展E 2B820-2CEA1 5762
扩展F 2CEB0-2EBE0 7473
扩展G 30000-3134A 4939
日文 平假名 3040-309F
片假名 30A0-30FF
韩文 3130-318F
AC00-D7A3
(utf-8指的是编码的存储格式,并不代表编码方式)

GB编码


字汇

GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充。具体包括:

  1. GB 2312 中的全部汉字、非汉字符号。
  2. GB 13000.1 中的其他 CJK 汉字。以上合计 20902 个 GB 化汉字。
  3. 《简化字总表》中未收入 GB 13000.1 的 52 个汉字。
  4. 《康熙字典》及《辞海》中未收入 GB 13000.1 的 28 个部首及重要构件。
  5. 13 个汉字结构符。
  6. BIG-5 中未被 GB 2312 收入、但存在于 GB 13000.1 中的 139 个图形符号。
  7. GB 12345 增补的 6 个拼音符号。
  8. 汉字“〇”。
  9. GB 12345 增补的 19 个竖排标点符号(GB 12345 较 GB 2312 增补竖排标点符号 29 个,其中 10 个未被 GB 13000.1 收入,故 GBK 亦不收)。
  10. 从 GB 13000.1 的 CJK 兼容区挑选出的 21 个汉字。
  11. GB 13000.1 收入的 31 个 IBM OS/2 专用符号。
  12. 未录入《新华字典》上的一些字,如“韡”的简体。

码位分配及顺序

GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。

子类 编码范围 字符数 说明
图形符号区 GB2312非汉字符号区 GBK/1 A1A1-A9FE 717 外加10 个小写罗马数字、GB 12345 增补的符号
GB13000.1扩充非汉字区 GBK/5 A840-A9A0 166 BIG-5 非汉字符号、结构符和“〇”排列在此区
汉字区 GB 2312 汉字区 GBK/2 B0A1-F7FE 6763 按原顺序排序
GB 13000.1 扩充汉字区 GBK/3 8140-A0FE 6080 GB 13000.1 中的 CJK 汉字 6080 个
GBK/4 AA40-FEA0 8160 CJK 汉字和增补的汉字 8160 个。
CJK 汉字在前,按 UCS 代码大小排列;
增补的汉字(包括部首和构件)在后
按《康熙字典》的页码/字位排列
用户自定义区 AAA1-AFFE 564
F8A1-FEFE 658
A140-A7A0 672 尽管对用户开放,但限制使用,
不排除未来在此区域增补新字符的可能性

编码特点

  • GB2312字集是简体字集,全称GB2312(80)字集,共包括国标简体汉字6763个
  • GB2312是中国大陆规定的汉字编码,也可以说是简体中文的字符集编码
  • GBK包含全部中文字符
  • GBK字集是简繁字集,包含了GB的字集,BIG5的字集和一些符号,共包括21003个字符
  • GBK是GB2312的扩展,除了兼容GB2312外,还能显示繁体中文,还有日文的假名
  • GBK标准,兼容GB2312标准的同时,扩展了GB13000包含的字符
  • GBK中的繁体字符编码与Big5编码不一致
  • GBK中的简体字符编码与GB2312编码一致

简繁互换


目标 过程
GBK简体<->GBK繁体 GBK简体<->GBK繁体
GBK简体<->Unicode繁体 GBK简体<->GBK繁体<->Unicode繁体
GBK简体<->BIG5编码 GBK简体<->GBK繁体<->Unicode繁体<->BIG5编码
Unicode简体<->GBK繁体 Unicode简体<->GBK简体<->GBK繁体
Unicode简体<->Unicode繁体 Unicode简体<->GBK简体<->GBK繁体<->Unicode繁体
Unicode简体<->BIG5编码 Unicode简体<->GBK简体<->GBK繁体<->Unicode繁体<->BIG5编码
posted @ 2020-06-03 22:34  beibao  阅读(1619)  评论(0)    收藏  举报