摘要: 自VQGAN和Latent Diffusion Models等视觉生成框架问世以来,先进的图像生成系统通常采用两阶段架构:首先将视觉数据Token化或压缩至低维潜在空间,随后学习生成模型。传统Token化器训练遵循标准范式,通过MSE、感知损失和对抗性损失的组合约束来实现图像压缩与重建。虽然扩散自编 阅读全文
posted @ 2025-03-22 10:02 deephub 阅读(31) 评论(0) 推荐(0)