tesseract ocr训练 pt验证码

识别率有问题A大概率识别为n，因此需要训练，这里讲一下如何训练

参考

java代码里边直接使用tess4j,是对tesseract的封装，但是如果要训练，还是需要在进行安装tesseract-ocr的

下载地址参考另一篇

然后还需要下载jTessBoxEditorhttps://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

多搜集几张图片，进行二值化去噪点和裁切处理

双击运行

首先打开图片

全选图片，应该可以自动拼接为一个大的tif，不过我测试发现，有问题，并不能拼

而且，最后一步，生成box的时候，几乎所有的字体都无法识别，还是需要手动添加box

所以还是手动处理一下

然后生成tif文件，命名格式包含语言类型和干吗用的字体就行了，比如我这个是英文字体，pt验证码

4、使用tesseract生成.box文件：

在当前文件夹运行cmd（定位到文件夹，然后在地址栏直接输入cmd，回车即可）

运行命令

tesseract ptyzm.engchar.exp0.tif ptyzm.engchar.exp0 -l eng -psm 7 batch.nochop makebox

行完之后会生成ptyzm.engchar.exp0.box文件。

可以看到生成了box文件

5、使用jTessBoxEditor矫正.box文件的错误：

会自动关联box文件

因为图像分辨率问题，识别效果不是很好

识别错误的，修改之后点击save

6、生成font_properties文件：（该文件没有后缀名）

（1）执行命令，执行完之后，会在当前目录生成font_properties文件

然后执行命令，0表示字体test的粗体、倾斜等共计5个属性。也可以直接手动创建这个文件

echo engchar 0 0 0 0 0 >font_properties

执行完之后，会在当前目录生成font_properties文件

7、使用tesseract生成.tr训练文件:

执行下面命令，执行完之后，会在当前目录生成ptyzm.engchart.exp0.tr文件。

tesseract ptyzm.engchar.exp0.tif ptyzm.engchar.exp0 nobatch box.train

8、生成字符集文件：

执行下面命令：执行完之后会在当前目录生成一个名为“unicharset”的文件。

unicharset_extractor ptyzm.engchar.exp0.box

9、生成shape文件：

执行下面命令，执行完之后，会生成 shapetable 和engchar.unicharset 两个文件。

shapeclustering -F font_properties -U unicharset -O engchar.unicharset ptyzm.engchar.exp0.tr

。

生成的文件

10、生成聚字符特征文件：

执行下面命令，会生成 inttemp、pffmtable、shapetable和zwp.unicharset四个文件。

mftraining -F font_properties -U unicharset -O ptyzm.engchar ptyzm.engchar.exp0.tr

11、生成字符正常化特征文件：

执行下面命令，会生成 normproto 文件。

cntraining ptyzm.engchar.exp0.tr

12、文件重命名：

重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。

这里修改为zwp.inttemp、zwp.pffmtable、zwp.shapetable和zwp.normproto

执行下面命令：

rename normproto engchar.normproto  
rename inttemp engchar.inttemp
rename pffmtable engchar.pffmtable
rename shapetable engchar.shapetable

13、合并训练文件：

执行下面命令，会生成zwp.traineddata文件。

combine_tessdata engchar.

生成了训练文件

改个名字，就可以用啦

还是刚才的图片

posted @ 2019-08-08 14:08 不打鱼光晒网阅读(1057) 评论(0) 收藏举报

不打鱼光晒网

制造数字垃圾的傻逼离我远一点,我有厌蠢症.

tesseract ocr训练 pt验证码

公告