完整教程:AI 术语通俗词典:Diffusion Models(扩散模型)

扩散模型(Diffusion Models)是近年来生成式人工智能(Generative AI)最重要的突破之一。它广泛应用于图像生成、语音合成、3D 建模等领域,也是 Stable Diffusion、Imagen 等著名文生图模型的核心技术。

理解当代 AIGC(AI Generated Content)技术的关键一步。就是理解扩散模型,

一、术语定义

一种基于概率生成的模型。就是Diffusion Models(扩散模型)

其核心思想是:

1、正向扩散(Forward Process):逐步向数据中添加噪声,使其趋近纯噪声。

2、反向扩散(Reverse Process):模型学习如何一步步去掉噪声,直到生成一张与训练分布一致、与原图相似的图像。

通过最终,模型能够从随机噪声中逐步生成与真实分布相似的新内容(如图片),而不仅仅是对已有数据的修改。

示意图由 DALL-E 生成

与人类类比:

可以把扩散模型理解成一个“逆向拼图大师”:

普通拼图:从完整拼图逐步拆开,终于剩下一堆碎片。

扩散模型:训练计算机从“碎片堆”(噪声)一步步拼回一幅全新的拼图。

二、提出背景

在扩散模型之前,生成模型主要有两大路线:

1、GAN(生成对抗网络)

优点:效果好、速度快于扩散模型。

缺点:训练不稳定,模式崩塌(mode collapse)严重。

2、VAE(变分自编码器)

优点:数学理论完整,收敛稳定。

缺点:生成图像往往模糊。由于重构目标偏向平均化,导致细节损失。

扩散模型提出后,兼具稳定训练与高保真生成的优势,逐渐成为主流。

三、工作原理

扩散模型的工作流程可以概括为三步:

1、正向扩散(Forward Diffusion)

给一张清晰的图片,逐步加噪:

第 1 步:加一点噪声

第 10 步:轮廓模糊

第 100 步:几乎全是噪声

2、反向扩散(Reverse Diffusion)

模型学习如何一步步去掉噪声,直到生成一张与原始数据分布相似的图像。

3、生成阶段(Generation)

给模型一张“纯噪声”,它会学会如何一步步还原,最终生成一张“全新”的图像。

这种过程,就像一位画家:先面对一张布满杂乱笔迹的画布,然后一层层擦除、修正,最终画出一幅全新作品。

四、典型模型

1、DDPM(Denoising Diffusion Probabilistic Models, 2020)

扩散模型的开创性论文,提出完整的概率建模框架。

2、DDIM(Denoising Diffusion Implicit Models, 2020)

改进采样方法,加快生成速度。

3、Latent Diffusion(潜在扩散模型,2022)

代表作:Stable Diffusion。

不直接在像素空间扩散,而是在“潜在空间”中操作,大幅降低计算量,让个人电脑也能跑生成。

五、应用场景

1、图像生成

文生图(Text-to-Image):Stable Diffusion、DALL·E、MidJourney。

图生图(Image-to-Image):修复老照片、风格迁移、图像上色。

2、语音与音频

扩散模型能生成接近人类自然声音的高质量语音,并被用于音乐合成与音频修复。

3、视频与 3D

Video Diffusion Models:生成短视频。

3D Diffusion Models:建模游戏场景或虚拟现实。

小结

一种基于噪声学习的生成模型。就是本质:扩散模型

优势:训练稳定,生成高保真细节。

代表:DDPM、DDIM、Stable Diffusion。

应用:图像生成、语音合成、视频生成、3D 建模。

扩散模型让 AI 真正具备了“从无到有创造”的能力,是推动 AIGC 浪潮的核心引擎。

图片

鼓励”就是“点赞有美意,赞赏

posted on 2025-09-27 14:34  ljbguanli  阅读(120)  评论(0)    收藏  举报