训练参考

jtessboxeditor 中文乱码？

将jtessboxeditor的setting里改字体为宋体，regular就可以了。

https://www.aliyun.com/jiaocheng/124923.html?spm=5176.100033.2.5.af655c46crR9yx

5 Tesseract-ocr 系列：使用 jTessBoxEditor，结合 tesseract-ocr-3.4 进行训练、识别
发布时间：2018-01-19 来源：网络上传者：用户

关键字: Tesseract jTessBoxEditor ocr 识别结合训练进行使用系列 3.4

发表文章
摘要：首先,本地环境:Ubuntu16.40+Tesseract-ocr+jTessBoxEditor1.7.3(具体的环境搭建在之前都有介绍,此处不再赘述。)这里详细介绍使用图片文件作为输入的训练方法。比如我的训练素材是十张带字体格式的数字图片,最后我经过训练得到的语言库为:num1.tessdata准备好用作训练素材的图片:跳转到jTessBoxEditor的安装目录,打开jTessBoxEditor客户端:cd/your/path/jTessBoxEditor-1.7.3ja
首先,本地环境: Ubuntu 16.40 + Tesseract-ocr + jTessBoxEditor 1.7.3
(具体的环境搭建在之前都有介绍,此处不再赘述。)

这里详细介绍使用图片文件作为输入的训练方法。比如我的训练素材是十张带字体格式的数字图片,最后我经过训练得到的语言库为: num1.tessdata
1. 准备好用作训练素材的图片:
2. 跳转到 jTessBoxEditor 的安装目录,打开 jTessBoxEditor 客户端:
  cd /your/path/jTessBoxEditor-1.7.3java -Xms128m -Xmx1024m -jar jTessBoxEditor.jar
3. 由素材图片生成 ~.tif 文件; 即图片素材 –> .tif
  a) Tools -> Merge TIFF
  
  b) 弹出对话框:Select Input Images
  
  c) 弹出对话框:Save Multi-page TIFF Image
  
  D)此步成功会在保存路径中生成 ~.tif 文件,在这里就是 num1.invoicenum.exp0.tif
4. 由 .tif 文件 -> .box 文件
  两种方式:jTessBoxEditor 和命令行。
  a) jTessBoxEditor
  
  b) 命令行输入:
  tesseract num1.invoicenum.exp0.tif num1.invoicenum.exp0 batch.nochop makebox
  // 此步执行成功会生成 ~.box 文件,在这里就是 num1.invoicenum.exp0.box
5. 修正 Box 文件
  
  // 以后的操作都可以选择 jTessBoxEditor 或者命令行来操作,这里选择的是命令行:
6. 由 .box 文件 -> .tr
  tesseract num1.invoicenum.exp0.tif num1.invoicenum.exp0 box.train.stderr
7. 由 .box 文件 -> unicharset
  unicharset_extractor num1.invoicenum.exp0.box
8. 生成 font_properties // 本质是 ~.txt 文件,但是不带后缀
  echo invoicenum 0 1 1 0 1 >font_properties
9. 由 font_properties, unicharset, .tr -> shapetable
  shapeclustering -F font_properties -U unicharset num1.invoicenum.exp0.tr
10. 由 font_properties, unicharset, .tr ->lang.unicharset, inttemp, pffmtable
  mftraining -F font_properties -U unicharset -O num1.unicharset num1.invoicenum.exp0.tr
11. 由.tr 文件 -> normproto
  cntraining num1.invoicenum.exp0.tr
12. 重命名以 lang. 开头重命名 inttemp, normproto, pffmtable, shapetable
  mv inttemp num1.inttempmv normproto num1.normproto mv pffmtable num1.pffmtable mv shapetable num1.shapetable
  // 重命名后有
13. 合并生成 lang.traineddata文件,在这里为 num1.traineddata
  combine_tessdata num1.
14. 将生成的lang.traineddata 文件拷贝到系统中 ~/tessdata/目录下.
  如我的tessdata目录为: /usr/local/share/tessdata/
  sudo cp /your/path/num1.traineddata /usr/local/share/tessdata/
15. 测试
  要识别的图片:
  
  a) 使用自带的语言库 eng.traineddata 识别结果:
  
  b) 使用刚才训练得到的库 num1.tessdata 识别结果:
End