【论文阅读笔记】【OCR-文本识别】 Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition

ABINet
CVPR 2021 (Oral)

读论文思考的问题

  1. 论文试图解决什么问题?

    • 如何对语言的上下文进行建模而不是对视觉特征的上下文信息进行建模

    • 如何在端到端的文本识别模型中更好、更高效地对文本的语言知识进行建模,提升对困难情况的字符识别效果

  2. 文章提出了什么样的解决方法?

    • 提出了一个 autonomous, bidirectional 和 iterative 的网络来进行文本识别

    • 语言模型的作用是一个 spelling checker,针对输入的文本进行显式的上下文填空建模,习得单词的深度双向语义信息。通过这种上下文的语义信息将VM预测结果进行修正

      • 语言模型可以单独训练,无需视觉特征信息(自动)

      • 在语言模型输入处将梯度detach,禁止回传,强迫其直接显式地学习语言规则的建模

    • 通过对多模态特征信息的fusion,实现更加高质量的预测以及不同预测的ensemble

    • 通过迭代的方式不断地对语言模型的预测进行 refinement,并解决输入中出现噪声的问题

    • 提出了一种半监督的 self-training 方式用于训练,更好地提升模型的能力

  3. 你觉得解决方法的关键之处在哪里?

    • 语言模型部分,通过mask的形式并行地进行每个字符的掩码预测,更好地显式地建立了语言的双向上下文关系
  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 能否设计一种多粒度的语言建模模型,更好地进行ensemble?(字符、词片……)

    • BCN的修正准确率只有41.9%. 作为 spelling checker 的语言模型有可能会出现错误地纠正正确单词的情况 (mentioned in: Scene Text Recognition with Permuted Autoregressive Sequence Models)

  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)这些实验你觉得有效吗?

    • 实验缺了一个加入 self-attn 的对比实验

要点

  1. BCN 通过 masked cross attn,学得了从上下文字符推断本字符的能力

问题

  1. 如果 BCN 的 K 和 V 取不同的映射矩阵,会有区别吗?

  2. 论文里面的时间步是什么意思?不同时间步之间要防止信息泄露又是什么意思?

posted @ 2023-10-26 10:36  PanSTARRS  阅读(112)  评论(0)    收藏  举报