论文阅读 | GSDM

Diffusion-based | GSDM

SEU AAAI’24

一篇基于 Diffusion 的针对文本图像恢复（场景文本 STR + 手写文本 HTR）的文章。

GSDM 由 SPM + RM 构成，如图所示

其中

SPM 由单个 U-Net^[1] (denoted as \(g_\theta\)) 实现，用于从损坏图像预测完整图像的正确前景分割掩膜。为了增加 感受野，增强对周围损坏区域的感知，将 空洞卷积 (Yu et al. 2017) 引入网络。

损失函数共 4 个，其中两个用于评估掩膜预测：

这里 \(s_i\) 和 \(\hat{s_i}\) 分别作为真实标签和预测概率。

另提出两个用于保持语义一致性 (p.s. 一说，\(\ell_2\) / \(\ell_1\) 用于保持一致性)：

最终的 \(\mathcal{L}\) 是几个 loss 的加权。与开山作 Context Encoder 类似 (后者是 \(\ell_2\) + GAN)，都是评估不同指标的损失函数线性叠加。部分用来维持一致性，部分用来维持风格 / 分布 / 语义明确等 (总之是这种意思)。

也相当于一个解码器，基于 DDPM 的重参数化技巧，并参考了 DALL-E 2 的训练过程。

推理阶段使用一个非马尔可夫过程来加速。

提到，用作 baseline 的是 \(\mathcal{L}_{pix}\) 和 \(\mathcal{L}_{rm}\)

总结如下

posted @ 2025-04-18 12:15 Miya_Official 阅读(26) 评论(0) 收藏举报

刷新页面返回顶部