训练参考

jtessboxeditor 中文乱码?

将jtessboxeditor的setting里改字体为宋体,regular就可以了。

https://www.aliyun.com/jiaocheng/124923.html?spm=5176.100033.2.5.af655c46crR9yx

    • 5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别
    • 发布时间:2018-01-19 来源:网络 上传者:用户

      关键字: Tesseract jTessBoxEditor ocr 识别 结合 训练 进行 使用 系列 3.4

      发表文章
    • 摘要:首先,本地环境:Ubuntu16.40+Tesseract-ocr+jTessBoxEditor1.7.3(具体的环境搭建在之前都有介绍,此处不再赘述。)这里详细介绍使用图片文件作为输入的训练方法。比如我的训练素材是十张带字体格式的数字图片,最后我经过训练得到的语言库为:num1.tessdata准备好用作训练素材的图片:跳转到jTessBoxEditor的安装目录,打开jTessBoxEditor客户端:cd/your/path/jTessBoxEditor-1.7.3ja
    • 首先,本地环境: Ubuntu 16.40 + Tesseract-ocr + jTessBoxEditor 1.7.3 
      (具体的环境搭建在之前都有介绍,此处不再赘述。)

      这里详细介绍使用图片文件作为输入的训练方法。比如我的训练素材是十张带字体格式的数字图片,最后我经过训练得到的语言库为: num1.tessdata

      1. 准备好用作训练素材的图片: 
        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别

      2. 跳转到 jTessBoxEditor 的安装目录,打开 jTessBoxEditor 客户端:

        cd /your/path/jTessBoxEditor-1.7.3java -Xms128m -Xmx1024m -jar jTessBoxEditor.jar

        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别

      3. 由素材图片生成 ~.tif 文件; 即 图片素材 –> .tif 
        a) Tools -> Merge TIFF

        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别

        b) 弹出对话框:Select Input Images

        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别

        c) 弹出对话框:Save Multi-page TIFF Image

        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别

        D)此步成功会在保存路径中生成 ~.tif 文件,在这里就是 num1.invoicenum.exp0.tif

      4. 由 .tif 文件 -> .box 文件 
        两种方式:jTessBoxEditor 和 命令行。 
        a) jTessBoxEditor

        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别

        b) 命令行输入:

        tesseract num1.invoicenum.exp0.tif num1.invoicenum.exp0 batch.nochop makebox

        // 此步执行成功会生成 ~.box 文件,在这里就是 num1.invoicenum.exp0.box

      5. 修正 Box 文件

        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别

        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别

        // 以后的操作都可以选择 jTessBoxEditor 或者 命令行 来操作,这里选择的是 命令行:

      6. 由 .box 文件 -> .tr

        tesseract num1.invoicenum.exp0.tif num1.invoicenum.exp0 box.train.stderr
      7. 由 .box 文件 -> unicharset

        unicharset_extractor num1.invoicenum.exp0.box
      8. 生成 font_properties // 本质是 ~.txt 文件,但是不带后缀

        echo invoicenum 0 1 1 0 1 >font_properties
      9. 由 font_properties, unicharset, .tr -> shapetable

        shapeclustering -F font_properties -U unicharset num1.invoicenum.exp0.tr
      10. 由 font_properties, unicharset, .tr ->lang.unicharset, inttemp, pffmtable

        mftraining -F font_properties -U unicharset -O num1.unicharset num1.invoicenum.exp0.tr
      11. 由.tr 文件 -> normproto

        cntraining num1.invoicenum.exp0.tr

        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别

      12. 重命名 以 lang. 开头重命名 inttemp, normproto, pffmtable, shapetable

        mv inttemp num1.inttempmv normproto num1.normproto mv pffmtable num1.pffmtable mv shapetable num1.shapetable

        // 重命名后有 
        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别

      13. 合并生成 lang.traineddata文件,在这里为 num1.traineddata

        combine_tessdata num1.

        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别

      14. 将生成的lang.traineddata 文件拷贝到系统中 ~/tessdata/目录下. 
        如我的tessdata目录为: /usr/local/share/tessdata/

        sudo cp /your/path/num1.traineddata /usr/local/share/tessdata/
      15. 测试 
        要识别的图片: 
        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别
        a) 使用自带的语言库 eng.traineddata 识别结果: 
        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别 
        b) 使用刚才训练得到的库 num1.tessdata 识别结果: 
        5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别

      End

    • 以上是

5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别

      的内容,更多 

Tesseract jTessBoxEditor ocr识别 结合 训练 进行 使用 系列 3.4 

      的内容,请您使用右上方搜索功能获取相关信息。
      按照上面来可以,但是,千万不要一次训练太多,最好50个一组进行训练,不然崩了哭瞎了,另外,千万每次训练出来的字库都要留有备份,不要直接覆盖,切记切记。
posted @ 2018-12-26 21:36  猪啊美  阅读(203)  评论(0)    收藏  举报