OCR - 随笔分类 - wanglai

chineseocr项目的配置阶段出现的问题及解决方案

摘要：chineseocr为GitHub上的一个开源项目，主要使用yolos，crnn等深度学习框架训练好后的模型使用。测试结果发现，不管是针对文本文件、表格文件、还是场景图，如身份证火车票，识别效果都比较好。项目本身提供了docker环境，但是第一次运行会出现几个问题。下面一一解决。一、.第一次运行a 阅读全文

posted @ 2019-09-18 16:35 wanglai 阅读(2063) 评论(0) 推荐(0)

Tesseract5.0训练字库，提高OCR特殊场景识别率，合并字库（二）

摘要：一、准备工作需要的文件 tif文件和box文件。如果你打标打好了，但是是分批次打标的，那么可以合并字库，我们最初只需要 tif 和 box 文件，如下：二、生成对应的 .tr 训练文件根据不同的tif文件依次使用下面这个命令 tesseract qyc.word.exp4.tif qyc.w 阅读全文

posted @ 2019-09-16 15:19 wanglai 阅读(1768) 评论(0) 推荐(0)

Tesseract5.0训练字库，提高OCR特殊场景识别率（一）

摘要：0、目标很多特殊场景，原生的字库识别率不高，这时候就需要根据需求自己训练字库生成traineddata文件。一、前期准备工作 1.安装jdk 用于运行jTessBoxEditor 2.安装jTessBoxEditor 用于调整图片上文字的内容和位置 3. 安装tesseract5.0 jdk下载阅读全文

posted @ 2019-09-04 10:36 wanglai 阅读(9523) 评论(2) 推荐(0)

使用多线程开启OCR

摘要：需求：经过opencv 或者其他算法对一张图片里面的文字内容进行切割，获取到切割内容的坐标信息，再使用ocr进行识别。一张一张识别太慢了，我们可以开启多线程识别。代码如下阅读全文

posted @ 2019-08-19 10:51 wanglai 阅读(865) 评论(0) 推荐(0)

python的tesseract库几个重要的命令

摘要：在调用tesseract时，最重要的三个参数是 -l， -oem 和 -psm -l 参数控制识别文本的语言。可以通过命令 tesseract --list-langs 查看已经安装的字库。支持中文：下载中文扩展 https://github.com/tesseract-ocr/tessdata，阅读全文

posted @ 2019-08-12 15:21 wanglai 阅读(8582) 评论(0) 推荐(0)

炸鸡烤肉研究员

随笔分类 - OCR

公告