字符识别数据集(二)计算机汉字资料
大陆字库
| 来源 | <现代汉语> |
|---|---|
| 一级字 | 3500 |
| 二级字 | 3000 |
| 三级字 | 1605 |
| 总计 | 8105 |
| 现代汉语常用字表 | 3500 |
| 现代汉语通用字表 | 7000 |
台湾字库
| 汉字数量 | |
|---|---|
| 常用国字标准字体表 | 4808 |
| 次常用国字标准字体表 | 6341 |
| 总计 | 11146 |
注:重复字
- 兀
- 嗀(读音hù,呕吐)
- 斔(读音yǔ,古同“锺”,古代容量单位,六斛四斗。)
字体库
- 台湾字体库
- windows内置字体库
语料库
- ChineseNlpCorpus - https://github.com/SophonPlus/ChineseNlpCorpus
- FinancialDatasets - https://github.com/smoothnlp/FinancialDatasets
- SmoothNLP - https://github.com/smoothnlp/DomainWords

浙公网安备 33010602011771号