使用潜在扩散模型进行高分辨率图像合成

摘要

通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型 (DM) 在图像数据及其他方面取得了最先进的合成结果。 此外,它们的公式允许使用一种引导机制,在不重新训练的情况下控制图像生成过程。 然而,由于这些模型通常直接在像素空间中操作,强大的 DM 的优化通常需要数百个 GPU 天,并且由于顺序评估,推理成本很高。 为了在有限的计算资源上训练 DM,同时保留其质量和灵活性, 我们在强大的预训练自编码器的潜在空间中应用它们。 与之前的工作相比,在这种表示上训练扩散模型首次能够达到复杂性降低和细节保留之间的近乎最优点, 极大地提高了视觉保真度。 通过将交叉注意力层引入模型架构, 我们将扩散模型转变为强大的、通用的 生成器,用于通用的条件输入,例如文本或边界框,并且可以以卷积方式实现高分辨率合成。 我们的潜在扩散模型 (LDM) 在图像 修复和类别条件图像合成方面取得了新的最先进分数,并在各种任务上取得了极具竞争力的性能,包括 文本到图像合成、无条件图像生成和超分辨率,同时 与基于像素的 DM 相比,大大降低了计算需求。

1 引言
图像合成是计算机视觉领域中发展最迅速的领域之一,但同时也是计算需求最大的领域之一。 特别是复杂、自然场景的高分辨率合成,目前主要由基于似然的模型进行扩展,其中自回归 (AR) Transformer 可能包含数十亿个参数 [66, 67]。 相比之下,GANs [27, 3, 40] 的 promising 结果已表明主要局限于变化相对有限的数据,因为它们的对抗性学习过程不易扩展到建模复杂、多模态的分布。 近期,基于去噪自编码器层次结构的扩散模型 [82] 在图像合成 [30, 85] 及其他领域 [45, 7, 48, 57] 取得了令人印象深刻的结果,并在类别条件图像合成 [15, 31] 和超分辨率 [72] 方面达到了最先进水平。 此外,即使是无条件 DM,也可以轻松应用于修复和着色 [85] 或笔触合成 [53] 等任务,与其他类型的生成模型 [46, 69, 19] 相比。 作为基于似然的模型,它们不像 GANs 那样会出现模式崩溃和训练不稳定的情况,并且通过大量利用参数共享,它们可以在不涉及数十亿参数的情况下建模高度复杂的自然图像分布,不像 AR 模型 [67]。

普及高分辨率图像合成
DM 属于基于似然的模型类别,其模式覆盖行为使其容易花费过多的容量(以及计算资源)来建模数据的不可察觉的细节 [16, 73]。 尽管重加权变分目标 [30] 旨在通过对初始去噪步骤进行欠采样来解决这个问题,但 DM 仍然在计算上要求很高,因为训练和评估这样的模型需要在高维 RGB 图像空间中进行重复的函数评估(和梯度计算)。 例如,训练最强大的 DM 通常需要数百个 GPU 天(例如. 在 [15] 中需要 150 - 1000 个 V100 天),并且在输入空间的噪声版本上进行重复评估也会使推理过程变得昂贵,因此在一台 A100 GPU 上生成 50k 个样本大约需要 5 天 [15]。 这对研究社区和普通用户有两个影响:首先,训练这样的模型需要大量的计算资源,只有该领域的一小部分人能够获得,并且留下了巨大的碳足迹 [65, 86]。 其次,评估一个已经训练好的模型在时间和内存上也是昂贵的,因为必须对相同模型架构的大量步骤进行顺序运行(例如. 在 [15] 中需要 25 - 1000 步)。

为了提高这类强大模型的可用性,同时减少其显著的资源消耗,需要一种能够降低训练和采样计算复杂度的方法。 因此,在不损害其性能的情况下降低 DM 的计算需求,是提高其可访问性的关键。

转向潜在空间
我们的方法从分析像素空间中已训练的扩散模型开始:图 2 显示了训练模型的率失真权衡。 与任何基于似然的模型一样,学习大致可分为两个阶段:第一阶段是感知压缩阶段,该阶段会去除高频细节, 但仍然学习到很少的语义变化。 在第二阶段,实际的生成模型学习数据的语义和概念组成(语义压缩)。 因此,我们的目标是首先找到一个感知上等价但计算上更合适的空间,我们将在其中训练用于高分辨率图像合成的扩散模型。

遵循常见做法[96, 67, 23, 11, 66], 我们将训练分为两个不同的阶段:首先,我们训练一个自编码器,它提供一个维度较低(因此高效)的表示空间,该空间在感知上等同于数据空间。 重要的是,与先前的工作[23, 66]相比, 我们不需要 依赖过度的空间压缩,因为我们在学习到的潜在空间中训练 DM,该空间在空间维度上表现出更好的缩放特性。 降低的复杂度也允许通过一次网络通行实现从潜在空间的高效图像生成。 我们将由此产生的模型类别称为潜在扩散模型(LDMs)。

这种方法的一个显著 优点是,我们只需要训练一次通用的 自编码阶段,因此可以将其用于多次 DM 训练,或探索可能完全不同的任务 [81]。 这使得能够高效地探索大量用于各种图像到图像和文本到图像任务的扩散模型。 对于后者,我们设计了一个架构,将 Transformer 连接到 DM 的 UNet 主干[71],并启用任意类型的基于 Token 的调节机制,请参见第 2 节。 3.3。

我们提出潜在扩散模型(LDMs)作为一种有效的生成模型,以及一个单独的温和压缩阶段,该阶段仅消除不可感知的细节。 数据和图像来自[30]。

总之,我们的工作做出了以下贡献:

(i) 与纯粹基于 transformer 的方法 [23, 66] 相比,我们的方法在更高维数据上具有更优雅的扩展性,因此 (a) 可以在提供比以往工作更忠实、更详细重建的压缩级别上工作(见图 1),并且 (b) 可以高效地应用于超分辨率图像的合成。

(ii) 我们在多个任务(无条件图像合成、图像修复、随机超分辨率)和数据集上取得了有竞争力的性能,同时显著降低了计算成本。 与基于像素的扩散方法相比,我们也显著降低了推理成本。

(iii) 我们表明,与以往同时学习编码器/解码器架构和基于分数的先验的方法 [93] 不同,我们的方法不需要对重建和生成能力进行精细的权重分配。 这确保了极其忠实的重建,并且对潜在空间的正则化要求非常低。

(iv) 我们发现,对于超分辨率、图像修复和语义合成等密集条件任务,我们的模型可以以卷积方式应用,并渲染出
\(1024^2\) 像素大小的、大而一致的图像。

(v) 此外,我们设计了一种基于交叉注意力的通用条件机制,支持多模态训练。 我们使用它来训练类别条件、文本到图像和布局到图像的模型。

(vi) 最后,我们在 https://github.com/CompVis/latent-diffusion 上发布了预训练的潜在扩散和自编码模型,这些模型除了训练 DM [81] 之外,可能还可以用于各种任务。

2 相关工作
图像合成的生成模型 图像的高维特性给生成模型带来了独特的挑战。 生成对抗网络 (GAN) [27] 允许高效采样具有良好感知质量的高分辨率图像 [3, 42],但优化困难 [54, 2, 28],并且难以捕捉完整的数据分布 [55]。 相比之下,基于似然的方法强调良好的密度估计,这使得优化更易于处理。 变分自编码器 (VAE) [46] 和流模型 [18, 19] 能够高效合成高分辨率图像 [9, 92, 44],但采样质量不如 GAN。 虽然自回归模型 (ARM) [95, 94, 6, 10] 在密度估计方面表现出色,但计算需求高的架构 [97] 和顺序采样过程将其限制在低分辨率图像上。 由于图像的基于像素的表示包含几乎无法察觉的高频细节 [16, 73],最大似然训练会花费不成比例的容量来建模它们,导致训练时间过长。 为了扩展到更高的分辨率, 几种两阶段方法 [101, 67, 23, 103] 使用 ARMs 来模拟压缩的潜在图像空间,而不是原始像素。

最近,扩散概率模型 (DM) [82] 在密度估计 [45] 和样本质量 [15] 方面均取得了最先进的结果。 这些模型的生成能力源于当其底层神经网络骨干实现为 UNet [71, 30, 85, 15] 时,它们能很好地适应图像类数据的归纳偏置。 通常在训练中使用重加权目标 [30] 时,可以达到最佳的合成质量。 在这种情况下,DM 相当于一个有损压缩器,允许在图像质量和压缩能力之间进行权衡。 然而,在像素空间中评估和优化这些模型会带来推理速度慢和训练成本非常高的缺点。 虽然前者可以通过先进的采样策略 [84, 75, 47] 和分层方法 [31, 93] 部分解决,但对高分辨率图像数据进行训练始终需要计算昂贵的梯度。 我们提出的 LDM 解决了这两个缺点,它们在低维度的压缩潜在空间中工作。 这使得训练在计算上更便宜,并加快了推理速度,而合成质量几乎没有降低(参见图 1)。

两阶段图像合成 为了缓解单个生成方法的缺点,大量研究 [11, 70, 23, 103, 101, 67] 致力于通过两阶段方法将不同方法的优点结合起来,构建更有效、性能更强的模型。 VQ-VAEs [101, 67] 使用自回归模型在离散的潜在空间上学习一个富有表现力的先验。 [66] 将此方法扩展到文本到图像生成,学习离散图像和文本表示的联合分布。 更一般地说,[70] 使用条件可逆网络在不同领域的潜在空间之间提供通用的转换。 与 VQ-VAEs 不同,VQGANs [23, 103] 采用第一阶段,该阶段具有对抗性和感知目标,以将自回归 transformer 扩展到更大的图像。 然而,可行 ARM 训练所需的高压缩率,这引入了数十亿个可训练参数 [66, 23],限制了此类方法的整体性能,而较低的压缩率则以高计算成本为代价 [66, 23]。 我们的工作避免了这种权衡,因为我们提出的 LDM 由于其卷积骨干,可以更平缓地扩展到更高维度的潜在空间。 因此,我们可以自由选择压缩级别,它可以在学习强大的第一阶段与不将过多的感知压缩留给生成扩散模型之间进行最佳权衡,同时保证高保真重建(参见图 1)。

尽管存在联合 [93] 或单独 [80] 学习编码/解码模型以及基于分数的先验的方法,但前者仍然需要在重建和生成能力之间进行困难的权衡 [11] 并且我们的方法优于它们(见第 4 节),而后者则专注于高度结构化的图像,例如人脸。

posted on 2025-12-05 16:00  张博的博客  阅读(0)  评论(0)    收藏  举报

导航