随笔分类 -  OCR系列

摘要:CRNN是OCR领域非常经典且被广泛使用的识别算法,其理论基础可以参考我 "上一篇文章" ,本文将着重讲解CRNN代码实现过程以及识别效果。 数据处理 利用图像处理技术我们手工大批量生成文字图像,一共360万张图像样本,效果如下: 我们划分了训练集和测试集(10:1),并单独存储为两个文本文件: 文 阅读全文
posted @ 2019-02-01 11:44 最难不过二叉树 阅读(40957) 评论(80) 推荐(10) 编辑
摘要:在以前的OCR任务中,识别过程分为两步:单字切割和分类任务。我们一般都会讲一连串文字的文本文件先利用投影法切割出单个字体,在送入CNN里进行文字分类。但是此法已经有点过时了,现在更流行的是基于深度学习的端到端的文字识别,即我们不需要显式加入文字切割这个环节,而是将文字识别转化为序列学习问题,虽然输入 阅读全文
posted @ 2019-01-29 20:21 最难不过二叉树 阅读(47793) 评论(5) 推荐(8) 编辑
摘要:这几天一直在用Pytorch来复现文本检测领域的CTPN论文,本文章将从数据处理、训练标签生成、神经网络搭建、损失函数设计、训练主过程编写等这几个方面来一步一步复现CTPN。CTPN算法理论可以参考 "这里" 。 训练数据处理 我们的训练选择天池ICPR2018和MSRA_TD500两个数据集,天池 阅读全文
posted @ 2018-12-02 17:59 最难不过二叉树 阅读(22865) 评论(54) 推荐(10) 编辑
摘要:文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别。今天我们首先来谈一下当今流行的文字检测技术有哪些。 文本检测不是一件简单的任务,尤其是复杂场景下的文本检测,非常具有挑战性。自然场景下的文本检测有如下几个难点: 文本存在 阅读全文
posted @ 2018-10-12 10:18 最难不过二叉树 阅读(59956) 评论(5) 推荐(12) 编辑
摘要:上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建。用深度学习做文字识别,用的网络当然是CNN,那具体使用哪个经典网络?VGG?RESNET?还是其他?我想了下,越深的网络训练得到的模型应该会更 阅读全文
posted @ 2018-02-11 20:08 最难不过二叉树 阅读(95175) 评论(118) 推荐(26) 编辑
摘要:放假了,终于可以继续可以静下心写一写OCR方面的东西。上次谈到文字的切割,今天打算总结一下我们怎么得到用于训练的文字数据集。如果是想训练一个手写体识别的模型,用一些前人收集好的手写文字集就好了,比如中科院的 "这些数据集" 。但是如果我们只是想要训练一个专门用于识别印刷汉字的模型,那么我们就需要各种 阅读全文
posted @ 2018-02-09 21:07 最难不过二叉树 阅读(36780) 评论(21) 推荐(17) 编辑
摘要:要做文字识别,第一步要考虑的就是怎么将每一个字符从图片中切割下来,然后才可以送入我们设计好的模型进行字符识别。现在就以下面这张图片为例,说一说最一般的字符切割的步骤是哪些。 当然,我们实际上要识别的图片很可能没上面那张图片如此整洁,很可能是倾斜的,或者是带噪声的,又或者这张图片是用手机拍下来下来的, 阅读全文
posted @ 2017-12-12 20:41 最难不过二叉树 阅读(49120) 评论(10) 推荐(15) 编辑
摘要:最近入坑研究OCR,看了比较多关于OCR的资料,对OCR的前世今生也有了一个比较清晰的了解。所以想写一篇关于OCR技术的综述,对OCR相关的知识点都好好总结一遍,以加深个人理解。 什么是OCR? OCR英文全称是Optical Character Recognition,中文叫做光学字符识别。它是利 阅读全文
posted @ 2017-11-29 22:12 最难不过二叉树 阅读(49653) 评论(12) 推荐(24) 编辑