代码改变世界

实用指南:FlashVSR:迈向实时基于扩散的流媒体视频超分辨率

2025-11-19 16:33  tlnshuju  阅读(4)  评论(0)    收藏  举报

在这里插入图片描述

摘要

扩散模型近期推动了视频修复领域的进展,但将其应用于真实世界的视频超分辨率(VSR)仍面临高延迟、计算成本过高以及对超高分辨率泛化能力不足等挑战。本工作的目标是通过实现高效性、可扩展性和实时性能,使基于扩散模型的视频超分辨率技术走向实用化。为此,我们提出FlashVSR——首个基于扩散模型的一步式流式处理框架,可达到实时超分辨率效果。FlashVSR在单块A100 GPU上对768×1408分辨率视频的处理速度达到约17 FPS,其创新点包括:(1)支持流式超分辨率的三阶段可训练蒸馏管道;(2)局部约束稀疏注意力机制,在弥合训练-测试分辨率差距的同时减少冗余计算;(3)微型条件解码器,在不损失质量的前提下加速重建。为支持大规模训练,我们还构建了包含12万条视频和18万张图像的VSR-120K数据集。大量实验表明,FlashVSR能可靠地扩展到超高分辨率,相比现有一步式扩散超分辨率模型实现了最高约12倍的加速,同时保持最先进的性能


新闻动态

  • 发布日期: 2025年10月 —— 推理代码与模型权重现已发布!
  • 即将推出: 大规模训练数据集(VSR-120K)释出计划。

待办事项

  • ✅ 发布推理代码与模型权重
  • ⬜ 发布数据集(VSR-120K)

快速开始

按照以下步骤在本地设备上配置并运行 FlashVSR

1️⃣ 克隆仓库
git clone https://github.com/OpenImagingLab/FlashVSR
cd FlashVSR
2️⃣ 设置Python环境

创建并激活环境(Python 3.11.13):

conda create -n flashvsr python=3.11.13
conda activate flashvsr

安装项目依赖:

pip install -e .
pip install -r requirements.txt
3️⃣ 安装Block-Sparse-Attention(必需)

FlashVSR 依赖Block-Sparse-Attention后端实现灵活动态的注意力掩码,以支持高效推理。

git clone https://github.com/mit-han-lab/Block-Sparse-Attention
cd Block-Sparse-Attention
pip install packaging
pip install ninja
python setup.py install

⚠️ 注意: 当前块稀疏注意力(Block-Sparse Attention)后端仅在英伟达A100或A800显卡(Ampere架构)上能实现理想的加速效果。在H100/H800(Hopper架构)显卡上,由于硬件调度和稀疏计算内核行为的差异,可能无法达到预期的加速效果,某些情况下性能甚至可能慢于稠密注意力计算。

4️⃣ 从Hugging Face下载模型权重

模型权重通过Git LFS托管在Hugging Face平台,请先安装Git LFS:

# From the repo root
cd examples/WanVSR
# Install Git LFS (once per machine)
git lfs install
# Clone the model repository into examples/WanVSR
git lfs clone https://huggingface.co/JunhaoZhuang/FlashVSR

克隆后,您应该拥有:

./examples/WanVSR/FlashVSR/
│
├── LQ_proj_in.ckpt
├── TCDecoder.ckpt
├── Wan2.1_VAE.pth
├── diffusion_pytorch_model_streaming_dmd.safetensors
└── README.md

默认情况下,推理脚本会从 ./examples/WanVSR/FlashVSR/ 加载权重。

5️⃣ 运行推理
# From the repo root
cd examples/WanVSR
python infer_flashvsr_full.py      # Full model
# or
python infer_flashvsr_tiny.py      # Tiny model

️ 方法

FlashVSR 概述。该框架包含以下特点:

  • 三阶段蒸馏流程,用于流式视频超分辨率训练。
  • 局部约束稀疏注意力,减少冗余计算并弥合训练-测试分辨率差异。
  • 微型条件解码器,实现高效高质量重建。
  • VSR-120K 数据集,包含 12 万条视频18 万张图像,支持图像与视频联合训练。

在这里插入图片描述


反馈与支持

我们欢迎反馈与问题报告。感谢试用 FlashVSR


致谢

我们诚挚感谢以下开源项目:


联系方式


引用

@misc{zhuang2025flashvsrrealtimediffusionbasedstreaming,
      title={FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution},
      author={Junhao Zhuang and Shi Guo and Xin Cai and Xiaohui Li and Yihao Liu and Chun Yuan and Tianfan Xue},
      year={2025},
      eprint={2510.12747},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.12747},
}