LDM/SDM

LDM：

把图像VAE进隐空间，Diffusion加噪+UNetCrossAttn去噪，再VAE解码到像素空间输出

按照时间t，进行不同程度和类型的去噪，所以加入了time-embedding。

把加入了conditional和未加入conditional的图片线性融合，保证平滑

最前面接入resnet，是为了更好地保留中低级特征如边缘、纹理等，同时防止梯度消失，这也是优化unet的一种常用手段。

condition encoder随意，可以是CLIP

这里魔改了VAE：

SDM:

posted @ 2025-02-21 21:32 Anticipator 阅读(67) 评论(0) 收藏举报

刷新页面返回顶部

CnBlog Affiliated to 元和