LDM/SDM

LDM:

把图像VAE进隐空间,Diffusion加噪+UNetCrossAttn去噪,再VAE解码到像素空间输出

按照时间t,进行不同程度和类型的去噪,所以加入了time-embedding。

把加入了conditional和未加入conditional的图片线性融合,保证平滑

最前面接入resnet,是为了更好地保留中低级特征如边缘、纹理等,同时防止梯度消失,这也是优化unet的一种常用手段。

condition encoder随意,可以是CLIP

这里魔改了VAE:

SDM:

posted @ 2025-02-21 21:32  Anticipator  阅读(58)  评论(0)    收藏  举报