字符识别数据集(二)计算机汉字资料

大陆字库

来源 <现代汉语>
一级字 3500
二级字 3000
三级字 1605
总计 8105
现代汉语常用字表 3500
现代汉语通用字表 7000

台湾字库

汉字数量
常用国字标准字体表 4808
次常用国字标准字体表 6341
总计 11146

注:重复字

  • 嗀(读音hù,呕吐)
  • 斔(读音yǔ,古同“锺”,古代容量单位,六斛四斗。)

字体库

  1. 台湾字体库
  2. windows内置字体库

语料库

  1. ChineseNlpCorpus - https://github.com/SophonPlus/ChineseNlpCorpus
  2. FinancialDatasets - https://github.com/smoothnlp/FinancialDatasets
  3. SmoothNLP - https://github.com/smoothnlp/DomainWords
posted @ 2020-06-03 22:26  beibao  阅读(388)  评论(0)    收藏  举报