0914 每日文献阅读 打卡

|
Read Data: 0914 |
Publication: CVPR 2021 |
||
|
Title: DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regression Networks |
|||
|
Aim: 通过网络搭建适合提取的文档图像。 |
Research Question: 在非结构化环境中使用手持设备捕获文档图像是当今的一种常见做法。然而,由于纸张的物理变形、相机的不同位置和不受约束的照明条件等不可控因素,用移动设备拍摄的随意照片往往会出现不同程度的失真。这些原始图像往往不适合自动信息提取和内容分析。 |
||
|
Method: 我们提出了DewarpNet,一种深度学习的方法,从单一的图像文档图像不变形。我们的观点是,文档的3D几何结构不仅决定了纹理的扭曲,还导致了照明效果。因此,我们的新颖之处在于在端到端中,文档纸的三维形状的显式建模。此外,我们还提供了迄今为止最大和最全面的文档图像复原数据集Doc3D。 |
|||
|
Results: 通过Doc3D培训,我们为DewarpNet演示了最先进的性能,并进行了广泛的定性和定量评估。我们的网络还显著提高了对捕获的文档图像的OCR性能,字符错误率平均降低了42%。
|
Discussion:
|
||
|
Conclusion: 贡献总结如下: 首先,我们贡献了Doc3D数据集。据我们所知,这是第一个也是最大的文档图像数据集,在三维和二维领域都有多个地面真值注释。 第二,我们提出了一种新的端到端深度学习架构DewarpNet。该网络实现了高质量的文档图像的实时取消抓取。 第三,使用Doc3D数据集中丰富的注释进行训练后,DewarpNet显示出与最新技术相比的优越性能。通过对真实文档扫描的感知相似度评估,我们将多尺度结构相似度(MS-SSIM)提高了15%,将局部失真降低了36%。此外,我们证明了我们的方法的实际意义,降低了42%的OCR字符错误率。 |
Further: 我们的数据缺乏具有高度复杂纸张皱折的样本。在未来的工作中,作者计划构建一个具有更好细节和更复杂结构的数据集,同时计划通过数据增强和对抗训练来解决这一难题。 |
||
|
Ref: 有代码 |
|||
浙公网安备 33010602011771号