论文阅读 | Instruct-IR

InstructIR

JMU ECCV’24

Introduction

Image Restoration

Such effects are commonly known in low-level computer vision as degradations (退化).

IR 是 low-level task,包括 denoising, deraining (去雨), deblurring (去模糊) 等。本文提出的 Instruct-IR 针对盲复原 (blind-IR)

  1. 现代方法多基于 CNNs / Transformers or related att mechanisms.
  2. Related Works
    1. Image Restoration
    2. All-in-One Image Restoration
    3. Text-Guided Image Manipulation
  3. All-in-One 模型一般训练一个辅助判断模型 (判断是哪种 task) 或其他类似方式。

关于 NAFNet (本工作的 backbone)

  • U-Net based
  • simplified channel attention
  • gating
  • metaformer
  • inverted residual blocks

Methodology

提到,Instruction-based IR 是监督学习,Image model 部分是 (自) 监督学习。

  • 指令生成 用 GPT-4 生成大量提示,过滤模糊提示,然后分成 7 tasks + 1 general 类。
  • 数据格式 prompts - degraded - clean

Text Encoder

A text encoder maps the user prompt to a fixedsize vector representation (a text embedding).

编码器模型选择

常用 CLIP 模型进行文本到视觉提示的映射,但在该任务不合适。自行训练了小的纯文本编码器,将句子(from 7+1 classes ?)编码到对应的语义空间。紧凑,速度快。实现上,这里提到使用 Transformer (BGE-micro-v2).

Fine Tuning

训练细节。在小数据集上做 full training 容易过拟合。因此冻结了 Transformer 参数,只训练一个投影头,保持泛化能力。

\[\textbf{e} = norm(\textbf{W} \cdot E(t)) \tag{1} \]

其中:

  • \(E(t)\): raw text embedding
  • \(\textbf{W}\in\mathbb{R}^{d_t \times d_v}\): learned projection matrix
  • \(d_t\): text dimension
  • \(d_v\): input dimension for the RM
  • \(norm\): l2-norm (\(v = \frac{v}{max(\Vert x \Vert_2, \epsilon)}\))
  • \(\textbf{e}\): text embedding

\(\ell_2\)-Norm 用于归一化输出,使得最终结果更加稳定有效。

最后,训练一个两层 MLP 构成的分类头

\[\textbf{c} = \mathcal{C}(\textbf{e}) \in \mathbb{R}^D \tag{2} \]

总的训练量就是投影头 + 分类头,并使得模型能够从人类指令中学习到有意义的嵌入。

意图分类损失

NLP 的一个重要概念,用于衡量模型预测结果与用户真实意图之间的误差。

Image Model

\(\mathscr{Q}\) 训练过程为什么是自监督学习?

\(\mathscr{A}\) 我觉得是指,标签可以打,但没直接打在模型要学习(或要输出)的特征上,就是自监督学习。一般学的都是数据的内在规律。

Task Routing

用于多任务学习。本工作仿照提出 Instruction Condition Block (ICB) 用于特定任务转换。

Instruction Condition Block (ICB)

指令条件块使用 Task Routing 的近似用于多任务学习。该机制允许神经网络根据指令选择特定特征并进行优先级排序,类似于 MoE。

Summary

总结如下

  1. 这一篇是针对多个 low-level task,偏向对文本编码 / 嵌入模块的训练. 之前看的 inpainting 是面向复杂语义的纯正 CV,且只面向单个任务.
  2. 第三章大概是 LLM 生成样本,用 Transformer 文本嵌入
  3. 图像重建部分的重点在于 all-in-one 模型的任务路由。写得很跳跃。
posted @ 2025-04-18 13:47  Miya_Official  阅读(27)  评论(0)    收藏  举报