【论文阅读笔记】【OCR-文本识别】 Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

SRN
CVPR2020

论文试图解决什么问题？
- 如何利用文本的上下文语义信息来辅助文本识别任务
- RNN 能部分利用语义信息，但它的利用方式是串行的，极大地限制了语义信息的帮助，会造成错误累积以及效率缓慢等问题
文章提出了什么样的解决方法？
- 提出全局语义理解模块（GSRM），通过多方向并行传输信息的方式来对文本的上下文语义信息进行建模
- 提出SRN网络，包含GSRM, PVAM和VSFD模块，分别用于：上下文语义信息建模、并行文本视觉信息提取和视觉语义信息融合，实现高效和强健的文本识别
你觉得解决方法的关键之处在哪里？
- 利用 attention 机制将visual feature和positional encoding 做好了alignment，使得容易处理不规则的文本图片
- GSRM利用argmax的方式进行了伪字符选择，为语义建模提供了比较好的先验；transformer对上下文语义信息进行了深度建模。这两种做法使得模型能并行地对文本的全局信息进行语义理解，极大提高了效率
这个解决方法的局限性在哪里？有没有更好的解决方法？
- 不知道识别结果是否对文本的长度敏感？
- fusion模块用了 gated unit，似乎作用不明显，有没有更好的fusion方法？
文章是通过设计什么样的实验来支撑其解决方法的有效性的？（你说有效就有效吗，我不信）这些实验你觉得有效吗？

attention 是一种很好的可用于 feature alignment 的技术
之前的方法是用前一个时间步的隐藏状态\(H_{t-1}\)作为attention的query，现在是直接用每个位置的encoding作为query，可以实现并行计算attention以及进行alignment

posted @ 2023-10-26 10:35 PanSTARRS 阅读(116) 评论(0) 收藏举报

刷新页面返回顶部

ywh2000