论文:《Denoising Diffusion Probabilistic Models》(DDPM, NeurIPS 2020)
简述:
(大白话)
训练阶段:首先是将图片一步步进行加noise,将每一步加入noise生成的像素图片进行去噪,目标是预测噪声;
预测阶段:从标准高斯分布中采样一张纯噪声图片,将它放入已经生成的扩散模型中,通过多步迭代,让它预测加噪时添加的噪声。
完整总结:
- 前向加噪:对原始图片x0执行 T 步逐步加噪,生成从 “轻微噪声(t=1)” 到 “纯噪声(t=T)” 的含噪图片序列\(x1, x2, ..., xT),每一步加噪遵循高斯分布规律;
- 反向去噪训练:随机选择一个时间步 t,将该步的含噪图片xt和时间步 t 输入模型,让模型预测 “前向加噪时添加的真实噪声€”;
- 优化目标:最小化 “模型预测的噪声€Θ” 与 “真实加噪噪声€” 的误差,让模型掌握 “任意噪声程度的图片→对应去噪结果” 的映射规律。
- 初始化:从标准高斯分布中采样一张纯噪声图片xT;
- 多步迭代去噪:对 t 从 T 到 1 逐步迭代,每次将当前含噪图片xt和时间步 t 输入训练好的模型,通过模型预测的噪声€Θ推导出去噪后的图片xt-1;
- 输出结果:迭代完成后,最终得到的x0即为去噪(生成)的目标图片。