摘要:截止至2019年初大部分曲文检测论文 阅读全文
posted @ 2019-02-20 20:11 lilicao 阅读 (1937) 评论 (0) 编辑
摘要:针对曲文检测问题,利用类似于Image Pyramid的多通道多尺度来提取不同scale的图像特征,通过三个分支的预测(像素点的classification分支,与最近的边界点的x的dis,与最近的边界点的y的dis)得到boundary point set,最后用Alpha-Shape Algorithm从点集合得到外边界凸多边形 阅读全文
posted @ 2019-02-20 20:02 lilicao 阅读 (645) 评论 (0) 编辑
摘要:针对曲线文本,采用从字符到文本行的自底向上的pipeline。先用一个网络CENet学习两个任务,包括单个字符的检测,以及一个字符对的embedding向量(表示两个字符是否可以构成一个pair),最后利用WordSup中的文本线形成算法(图模型+一阶线性模型)得到文本行 阅读全文
posted @ 2019-02-20 19:56 lilicao 阅读 (413) 评论 (0) 编辑
摘要:针对曲线文本,提出一个新的概念TextField——表示每个像素点到离自己最近的boundary的点的向量。具体方法是用一个VGG+FPN网络学习TextField的两张score map图,然后这两张图上做关于超像素、合并、形态学等后处理来得到text instance 阅读全文
posted @ 2019-02-20 19:27 lilicao 阅读 (474) 评论 (0) 编辑
摘要:本文方法基于RPN进行修改,除了学习text/non-text分类,多边形的bounding box回归(x1,y1,x2,y2),增加了14个点的回归,最后再进行后处理(去噪+nms)得到最终输出。 阅读全文
posted @ 2018-11-13 22:40 lilicao 阅读 (2161) 评论 (0) 编辑
摘要:本文方法是SSD进行修改,除了修改输出预测4个点坐标偏移量来检测倾斜文本外,还利用了ORN来提取旋转敏感的文字特征,然后在分类分支增加最大池化来提取针对分类不敏感的特征。 阅读全文
posted @ 2018-11-13 22:36 lilicao 阅读 (848) 评论 (0) 编辑
摘要:本文方法是对TextBoxes(水平文字检测)进行改进,用于多方向文字检测。和SSD一样,该方法是one-stage的端到端模型,测试时只需运行网络+NMS即可得到检测结果(倾斜矩形或者任意四边形)。 阅读全文
posted @ 2018-11-13 22:32 lilicao 阅读 (509) 评论 (1) 编辑
摘要:本文方法利用Faster RCNN来做文字检测(水平),改进的地方在于backbone增加了一个VGG-16 net,该子网络用于学习图像中的所有Object信息(包括文字、背景里的各种目标类),采用了三步分段训练方式来训练模型。实验表明,把文字载体的类别信息融合进去后对文字检测结果有很大提升。 阅读全文
posted @ 2018-11-13 22:27 lilicao 阅读 (368) 评论 (1) 编辑
摘要:本文方法是对Faster RCNN进行改造,改造的点主要包括对增加RPN卷积的分支、特征融合时参照HyperNet压缩中间层特征、ROI Pooling增加网格种类数并进行加权平均这几点来检测水平文本。 阅读全文
posted @ 2018-11-13 22:24 lilicao 阅读 (259) 评论 (0) 编辑
摘要:本文方法基于一个新的曲线文本表示方法TextSnake——用一个有序的圆盘序列来表示文字,先用FCN检测文本区域、文本中心线、以及每个点的圆盘半径、方向,然后利用文本区域mask和中心线mask得到text instance segmentation。在每个text-instance上,交替进行点中心化和点扩展,得到文本中心点序列。最后结合圆盘半径,得到文本区域的TextSnake表示并进行union得到最终的文本区域。 阅读全文
posted @ 2018-11-13 22:18 lilicao 阅读 (1879) 评论 (1) 编辑
摘要:本文方法是对SSD进行改进,通过增加一个角度信息,用于多方向文字检测。只要通过Attention机制和引入Inception来提高对文字特征的鲁棒性。 阅读全文
posted @ 2018-11-13 22:11 lilicao 阅读 (320) 评论 (0) 编辑
摘要:本文方法是对SSD(水平文字检测)进行改进,通过学习四个点相对多方向anchor的位置信息,用于多方向文字检测。 阅读全文
posted @ 2018-11-13 22:07 lilicao 阅读 (308) 评论 (0) 编辑
摘要:利用Faster RCNN或SSD等目标检测框架检测单个字符,并利用单词、文本行的标注信息进行监督学习来辅助字符检测器的训练(字符模型和mask进行交替训练),最后采用图模型来进行文本行合并、LSTM空格检测来进行单词切割等后处理。 阅读全文
posted @ 2018-11-13 22:03 lilicao 阅读 (315) 评论 (0) 编辑
摘要:本文方法采用instance segmentation思路,预测text/non-text和pixel-link关系,再使用简单的图像处理的方式进行后处理来去除噪声。 阅读全文
posted @ 2018-11-13 21:51 lilicao 阅读 (245) 评论 (0) 编辑
摘要:该方法利用多层卷积神经网络提取图像特征,再利用该特征分别进行两个任务,像素点的分类,以及对应像素点的框的回归。最后将两个任务结果结合起来,并用非极大值抑制NMS来得到最终检测结果。 阅读全文
posted @ 2018-11-13 21:43 lilicao 阅读 (619) 评论 (0) 编辑
摘要:本文方法是直接回归的方法,除了学习text/non-text分类任务,四个点到边界的回归任务(类似EAST),还增加了四条边界的border学习任务,最后输出不是直接用prediction的bounding box,而是用了text score map和四个border map来获得textline。 阅读全文
posted @ 2018-11-13 21:34 lilicao 阅读 (558) 评论 (0) 编辑
摘要:本文方法首次提出直接回归的概念,用自己搭建的FPN网络结构,直接学习四个点相对于中心点(feature map上的某个点)的偏移量,并用Scale & shift方案来缩小要学习目标的值范围 阅读全文
posted @ 2018-11-13 21:29 lilicao 阅读 (228) 评论 (0) 编辑
摘要:OCR2017-2018年的paper汇总 阅读全文
posted @ 2018-11-13 21:22 lilicao 阅读 (1468) 评论 (0) 编辑
摘要:该方法主要解决不规则文字的识别问题,先用STN做文字矫正,再用sequence-to-sequence + attention做识别 阅读全文
posted @ 2018-07-16 01:28 lilicao 阅读 (4366) 评论 (3) 编辑
摘要:论文更新 阅读全文
posted @ 2018-07-15 21:43 lilicao 阅读 (1121) 评论 (0) 编辑
摘要:该方法将文字检测和识别整合到一个端到端的网络中。检测使用YOLOv2+RPN,并利用双线性采样将文字区域统一为高度一致的变长特征序列,再使用RNN+CTC进行识别。 阅读全文
posted @ 2018-03-02 22:23 lilicao 阅读 (1699) 评论 (1) 编辑
摘要:用SSD检测字符,用Textflow合并字符串。本文方法亮点在于用半监督和弱监督的方法训练字符分类器解决字符训练数据不足的问题 阅读全文
posted @ 2018-03-02 21:37 lilicao 阅读 (1228) 评论 (0) 编辑
摘要:利用DSSD进行角点检测的方法得到多方向的文字候选区域,并通过position-sensitive segmentation得到的score map对候选区域进行综合打分并过滤噪声 阅读全文
posted @ 2018-03-02 21:21 lilicao 阅读 (3690) 评论 (9) 编辑
摘要:文字识别相关资源整理,数据库,代码,博客 阅读全文
posted @ 2017-05-23 16:18 lilicao 阅读 (19343) 评论 (5) 编辑
摘要:论文文献整理,分类和汇总 阅读全文
posted @ 2017-05-19 19:39 lilicao 阅读 (2359) 评论 (1) 编辑
摘要:改进ResNet网络,提出一种新的衡量模型容量的度量——“Cardinality”,使得设计网络更方便 阅读全文
posted @ 2017-05-02 23:06 lilicao 阅读 (3488) 评论 (0) 编辑
摘要:利用改进版的ssd解决多方向文本检测问题,主要是把segment的box和linking信息融合到一个网络中学习,最后用一个融合算法得到多方向的文本行或者单词 阅读全文
posted @ 2017-03-22 10:10 lilicao 阅读 (9738) 评论 (1) 编辑
摘要:目标检测问题,R-FCN是在Faster R-CNN的框架上进行改造,第一,把base的VGG16换车了ResNet,第二,把Fast R-CNN换成了先用卷积做prediction,再进行ROI pooling。由于ROI pooling会丢失位置信息,故在pooling前加入位置信息,即指定不同score map是负责检测目标的不同位置。pooling后把不同位置得到的score map进行组合就能复现原来的位置信息。 阅读全文
posted @ 2017-01-13 14:44 lilicao 阅读 (26518) 评论 (1) 编辑
摘要:文本线检测,先用一个coarse-CNN检测粗略的文字区域(文字块),再用fine-CNN提取文字区域中的文本线。CNN是VGG16上进行三点修改,滤波器改为矩形,引入全卷积代替全连接,用多层feature map进行融合 阅读全文
posted @ 2017-01-12 23:06 lilicao 阅读 (2153) 评论 (0) 编辑
摘要:文本检测,先用CNN得到深度特征,然后用固定宽度的anchor来检测text proposal(文本线的一部分),并把同一行anchor对应的特征串成序列,输入到RNN中,最后用全连接层来分类或回归,并将正确的text proposal进行合并成文本线。 阅读全文
posted @ 2017-01-12 21:49 lilicao 阅读 (18471) 评论 (4) 编辑