摘要: LDM: 把图像VAE进隐空间,Diffusion加噪+UNetCrossAttn去噪,再VAE解码到像素空间输出 按照时间t,进行不同程度和类型的去噪,所以加入了time-embedding。 把加入了conditional和未加入conditional的图片线性融合,保证平滑 最前面接入resn 阅读全文
posted @ 2025-02-21 21:32 Anticipator 阅读(58) 评论(0) 推荐(0)