随笔分类 - OCR之路
OCR(Optical Character Recognition)光学字符识别,包括文本框检测、字符识别、字符分割以及端到端的字符识别技术。
摘要:Big5编码 台湾国标繁体编码13053个 BIG5采用双字节编码,使用两个字节来表示一个字符。高位字节使用了0x81-0xFE,低位字节使用了0x40-0x7E,及0xA1-0xFE。 BIG5编码范围:8140-FEFE,其中汉字编码范围:A440-F9DC。 |类|编码范围|字符数| |-|-
阅读全文
摘要:大陆字库 来源 <现代汉语> 一级字 3500 二级字 3000 三级字 1605 总计 8105 现代汉语常用字表 3500 现代汉语通用字表 7000 台湾字库 汉字数量 常用国字标准字体表 4808 次常用国字标准字体表 6341 总计 11146 注:重复字 兀 嗀(读音hù,呕吐) 斔(读
阅读全文

浙公网安备 33010602011771号