SANA-Sprint:基于连续时间一致性蒸馏的单步扩散模型,0.1秒即可生成图像

扩散模型已成为现代文本到图像 (T2I) 生成技术的核心,能够生成高质量图像,但其迭代式推理过程导致生成速度缓慢。多数模型通常需要 20–50 个去噪步骤,这严重制约了其在实时应用中的部署。

现有的蒸馏技术旨在加速扩散模型的采样过程,然而,这些方法往往会引入稳定性问题,在极低步数下出现质量下降,并可能导致显著的内存需求。

Nvidia 提出的 SANA-Sprint 是一种混合蒸馏框架,它整合了连续时间一致性模型 (sCM) 和 **潜在对抗扩散蒸馏 (LADD)**,旨在实现以下目标:

  • 无步训练,并支持灵活的 1–4 步推理。
  • 卓越的速度与质量平衡,单步推理即可达到 FID 7.59 和 GenEval 0.74 的指标。
  • 在 H100 GPU 上实现 0.1 秒生成 1024×1024 图像,速度比 FLUX-Schnell 快 10 倍,同时保持更高图像质量。

本文将深入探讨 SANA-Sprint 实现上述性能的技术原理。

 

https://avoid.overfit.cn/post/c9690cdfa56046e7833462825ef93352

posted @ 2025-03-24 10:13  deephub  阅读(37)  评论(0)    收藏  举报