实用指南：【论文阅读】Denoising Diffusion Probabilistic Models (DDPM)详细解析及公式推导

摘要

通过运用扩散概率模型（一类受非平衡热力学启发的潜变量模型）展示了高质量的图像合成结果。作者最佳的结果是依据在加权变分界上进行训练获得的，该界是根据扩散概率模型与带朗之万动力学的去噪分数匹配之间的新型联系设计的，并且作者的模型自然地支持一种渐进式有损解压方案，这能够被解释为自回归解码的推广。在无条件 CIFAR10 数据集上，作者获得了 9.46 的 Inception 分数和 3.17 的最先进 FID 分数。在 256x256 的 LSUN 数据集上，作者获得了与 ProgressiveGAN 相似的样本质量。我们的实现可在 https://github.com/hojonathanho/diffusion 获取。

核心思想解析

Denoising Diffusion Probabilistic Models (DDPM) 是一种基于扩散过程的生成模型，经过逐步添加和去除噪声建立数据生成。其核心分为前向扩散（加噪）和反向扩散（去噪）两个过程，最终学习从噪声中重构内容。
在这里插入图片描述

重参数化

在这里插入图片描述

前向扩散过程

前向过程将数据逐渐转化为高斯噪声，每一步根据预设的噪声调度参数 $βt\beta_t$ 添加噪声。给定数据 $x_0$ ，第 $t$ 步的加噪结果 $x_t$ 服从以下分布：
$q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t\mathbf{I})$
通过重参数化技巧，可直接从 $x_0$ 计算任意 $t$ 步的噪声数据：
$x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$
其中 $αt=1−βt\alpha_t = 1-\beta_t$ ， $αˉt=∏s=1tαs\bar{\alpha}_t = \prod_{s=1}^t \alpha_s$ ， $ϵ∼N(0,I)\epsilon \sim \mathcal{N}(0, \mathbf{I})$ 。
在这里插入图片描述

在这里插入图片描述

反向扩散过程

反向过程通过神经网络学习逐步去噪。模型预测噪声 $ϵθ\epsilon_\theta$ 以重构数据，目标是最小化以下损失函数：
$\mathcal{L} = \mathbb{E}_{t,x_0,\epsilon}\left[\|\epsilon - \epsilon_\theta(x_t,t)\|^2\right]$
去噪每一步的均值和方差通过以下公式计算：
$p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t,t), \Sigma_\theta(x_t,t))$
其中 $μθ\mu_\theta$ 通常由预测噪声 $ϵθ\epsilon_\theta$ 推导得出。
在这里插入图片描述

在这里插入图片描述

训练与生成步骤

训练阶段：

从数据集中采样 $x_0$ ，随机选择时间步 $t$ 。
生成噪声 $ϵ\epsilon$ 并计算 $x_t$ 。
训练神经网络 $ϵθ\epsilon_\theta$ 预测噪声，优化均方误差损失。

生成阶段：

从高斯噪声 $x_T$ 开始，逐步去噪至 $x_0$ 。
每一步使用 $ϵθ\epsilon_\theta$ 预测噪声，并借助采样得到 $x_{t-1}$ 。

关键改进与扩展

噪声调度：线性或余弦调度的 $βt\beta_t$ 影响训练稳定性和生成质量。
加速采样：DDIM（Denoising Diffusion Implicit Models）通过非马尔可夫链加速生成。
条件生成：通过分类器引导或嵌入条件信息构建可控生成。

代码实现要点

# 噪声预测网络结构（U-Net为例）
class UNet(nn.Module):
def __init__(self):
super().__init__()
self.time_embed = nn.Sequential(
nn.Linear(embed_dim, time_emb_dim),
nn.SiLU(),
nn.Linear(time_emb_dim, time_emb_dim)
)
self.down_blocks = nn.ModuleList([DownsampleBlock(...) for _ in range(num_layers)])
self.up_blocks = nn.ModuleList([UpsampleBlock(...) for _ in range(num_layers)])
# 训练循环核心步骤
def train_step(x0, t):
noise = torch.randn_like(x0)
xt = sqrt_alphas_cumprod[t] * x0 + sqrt_one_minus_alphas_cumprod[t] * noise
predicted_noise = model(xt, t)
loss = F.mse_loss(predicted_noise, noise)
return loss

数学推导补充

反向过程的真实后验分布 $q(x_{t-1}|x_t,x_0)$ 可解析计算为：
$q(x_{t-1}|x_t,x_0) = \mathcal{N}(x_{t-1}; \tilde{\mu}_t(x_t,x_0), \tilde{\beta}_t\mathbf{I})$
其中：
$\tilde{\mu}_t = \frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}x_0 + \frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}x_t$
$\tilde{\beta}_t = \frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t$
模型通过拟合 $μ~t\tilde{\mu}_t$ 实现去噪。

发表于 2026-01-11 16:55 jzssuanfa 阅读(27) 评论(0) 收藏举报

刷新页面返回顶部

实用指南：【论文阅读】Denoising Diffusion Probabilistic Models (DDPM)详细解析及公式推导

摘要

核心思想解析

重参数化

前向扩散过程

反向扩散过程

训练与生成步骤

关键改进与扩展

代码实现要点

数学推导补充

导航