扩散模型简介

Smiling & Weeping

　　　　　　　　　　　　　　　　---- 在每一条靠近幸福的路上

　　　　　　　　　　　　　　　　　　我的勇气都是暴雨里一苇求生的渔船

　　　　　　　　　　　　　　　　　　我不再一心等人来搭救

　　　　　　　　　　　　　　　　　　如今的我失足也从容

扩散模型是一类生成模型，运用物理热力学中的扩散思想，主要包括前向扩散和反向扩散。

tips: 生成模型：给定一批训练数据X,假设其服从某种复杂的真实分布p(x),则给定的训练数据可视为从该分布中采样的观测样本x，其作用就是训练数据的真实分布。

扩散的思想：来自于物理学思想中的非平衡热力分支，例如墨水在水中扩散的实验，非平衡热力学可以描述这滴墨水随时间推移的扩散过程中每一个“时间步”状态的概率分布。

DDPM（Denoising Diffusion Probabilistic Model）的扩散过程：

前向过程（数据噪声化）：在每个时间步t，给上一个时间步t-1的数据添加高斯噪声，生成带有噪声的数据xt，噪声的方差由beta(t)确定，均值由beta(t)和当前时刻"带噪"的数据分布确定。加躁过程

　　　最终的噪声分布公式：

反向过程（数据去噪化）：从采样自高斯噪声x~N(0, 1)的随机噪声中恢复出原始数据x0，通过一系列用神经网络参数化的高斯分布组成的马尔科夫链进行数据去噪。从时间步t到时间步t-1的但不反向去噪过程

其中，均值为

方差为
优化目标：要求反向过程中预测的噪声分布与前向过程中施加的噪声分布之间的“距离”最小。优化目标公式：

基础扩散模型的提出与改进：最早提出的扩散模型是DDPM，将去噪扩散概率模型应用到图像生成任务中。
采样器：通过离散化求解随机微分方程，降低采样步数。
基于相似分类器引导的扩散模型：OpenAI的《Diffusion Models Beat GANs on Image Synthesis》论文介绍了在扩散过程中如何显式分类器引导。
基于CLIP的多模态图像生成：将同一语义的文字和图片转换到同一个隐空间中。
大模型的“再学习”方法：DreamBooth实现现有模型再学习到指定主体图像的功能，通过少量训练将主体绑定到唯一的文本标识符后，通过输入prompt控制主体生成不同的图像。LoRA可以指定数据集风格或人物，并将其融入现有的图像生成中。ControlNet学习多模态的信息，利用分割图、边缘图更精细地控制图像生成。

AI作画：Midjoryney、DreamStudio、Adobe Firefly，以及百度的文心一格AI创作平台，阿里的通义文生图大模型。

计算机视觉：图像分割与目标检测、图像超分辨率（串联多个扩散模型）、图像修复、图像翻译和图像编辑。
时序数据预测：TimeGrad模型，使用RNN处理历史数据并保存到隐空间，对数据添加噪声实现扩散过程，处理数千维度德多元数据完成预测。
自然语言：使用Diffusion-LM可以应用在语句生成、语言翻译、问答对话、搜索补全、情感分析、文章续写等任务中。
基于文本的多模态：文本生成图像（DALLE-2、Imagen、Stable Diffusion）、文本生成视频（Make-A-Video、ControlNet Video）、文本生成3D（DiffRF）
AI基础科学：SMCDiff（支架蛋白质生成）、CDVAE（扩散晶体变分自编码器模型）

我嘛，慢热且固执又总说随缘

文章到此结束，我们下次再见--<-<-<@

posted @ 2023-10-20 22:46 smiling&weeping 阅读(655) 评论(0) 收藏举报

刷新页面返回顶部