论文阅读 | Instruct-IR
InstructIR
JMU ECCV’24
Introduction
Image Restoration
Such effects are commonly known in low-level computer vision as degradations (退化).
IR 是 low-level task,包括 denoising, deraining (去雨), deblurring (去模糊) 等。本文提出的 Instruct-IR 针对盲复原 (blind-IR)
Related Works
- 现代方法多基于 CNNs / Transformers or related att mechanisms.
- Related Works
- Image Restoration
- All-in-One Image Restoration
- Text-Guided Image Manipulation
- All-in-One 模型一般训练一个辅助判断模型 (判断是哪种 task) 或其他类似方式。
关于 NAFNet (本工作的 backbone)
- U-Net based
- simplified channel attention
- gating
- metaformer
- inverted residual blocks
Methodology
提到,Instruction-based IR 是监督学习,Image model 部分是 (自) 监督学习。
- 指令生成 用 GPT-4 生成大量提示,过滤模糊提示,然后分成 7 tasks + 1 general 类。
- 数据格式 prompts - degraded - clean
Text Encoder
A text encoder maps the user prompt to a fixedsize vector representation (a text embedding).
编码器模型选择
常用 CLIP 模型进行文本到视觉提示的映射,但在该任务不合适。自行训练了小的纯文本编码器,将句子(from 7+1 classes ?)编码到对应的语义空间。紧凑,速度快。实现上,这里提到使用 Transformer (BGE-micro-v2).
Fine Tuning
训练细节。在小数据集上做 full training 容易过拟合。因此冻结了 Transformer 参数,只训练一个投影头,保持泛化能力。
其中:
- \(E(t)\): raw text embedding
- \(\textbf{W}\in\mathbb{R}^{d_t \times d_v}\): learned projection matrix
- \(d_t\): text dimension
- \(d_v\): input dimension for the RM
- \(norm\): l2-norm (\(v = \frac{v}{max(\Vert x \Vert_2, \epsilon)}\))
- \(\textbf{e}\): text embedding
\(\ell_2\)-Norm 用于归一化输出,使得最终结果更加稳定有效。
最后,训练一个两层 MLP 构成的分类头
总的训练量就是投影头 + 分类头,并使得模型能够从人类指令中学习到有意义的嵌入。
意图分类损失
NLP 的一个重要概念,用于衡量模型预测结果与用户真实意图之间的误差。
Image Model
\(\mathscr{Q}\) 训练过程为什么是自监督学习?
\(\mathscr{A}\) 我觉得是指,标签可以打,但没直接打在模型要学习(或要输出)的特征上,就是自监督学习。一般学的都是数据的内在规律。
Task Routing
用于多任务学习。本工作仿照提出 Instruction Condition Block (ICB) 用于特定任务转换。
Instruction Condition Block (ICB)
指令条件块使用 Task Routing 的近似用于多任务学习。该机制允许神经网络根据指令选择特定特征并进行优先级排序,类似于 MoE。
Summary
总结如下
- 这一篇是针对多个 low-level task,偏向对文本编码 / 嵌入模块的训练. 之前看的 inpainting 是面向复杂语义的纯正 CV,且只面向单个任务.
- 第三章大概是 LLM 生成样本,用 Transformer 文本嵌入
- 图像重建部分的重点在于 all-in-one 模型的任务路由。写得很跳跃。

浙公网安备 33010602011771号