【论文阅读】OrigamiNet:Weakly-Supervised, Segmentation-Free, One-Step, Full Page Text Recognition by learning to unfold

Introduction

  • 任务特点:篇章文本识别,文本识别与文本分割相耦合
  • 相关工作
    • 基于分割/无需分割方法,学界研究重心从seg-base变为seg-free,追求端到端识别
    • 前人工作大多需要较多的GT
  • 本文工作
    • 概述:OrigamiNet可以增强任何基于CTC的全卷积单行文本识别器,给予足够的空间容量就可以将其转换为多行版本,实现将2D输入信号折叠为1D并不损失信息。
    • 本文特点
      • 基于CTC:CTC算法详解_Michael’s Blog-CSDN博客_ctc
      • 弱监督:无需分割的标签和相关GroundTruth
      • 不基于分割:端到端一阶段模型
      • 全卷积:网络模型中只有卷积、池化、reshape(非线性插值)
      • 多行文本识别:无需单行文本作为预训练

Methodology

  1. 编码器可以换为其他的卷积网络(ResNet VGG)
  2. 编码器提取特征之后,[非线性插值 + 卷积] * 2, [卷积 + 平均池化] -> CTC loss
  3. L2的长度 > 单页的总字数,L1的设置可大约设置为L2的一半
  4. 最后一层平均池化之前,w的数值不能太大,宽度<32的效果较好
  5. 在第一层和最后一层后加layer-normalization

Discussion

  1. 对于难切分的样本识别效果好
  2. 可解释性分析:(字符的注意力区域)
 
posted @ 2021-06-07 09:15  HongmingYou  阅读(191)  评论(0编辑  收藏  举报