[diffusion] Video Diffusion

Video Diffusion 的发展脉络学习。

资源一

hu-po channel: Video Diffusion

Video Generation 也出现的比较早，紧跟着 Image Generation 的步伐~

Video Diffusion

Ref: Video Diffusion Models

[Submitted on 7 Apr 2022 (v1), last revised 22 Jun 2022 (this version, v2)]

Video Diffusion Models

Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, David J. Fleet

如下，video diffusion 比 image diffusion 晚大概四个月。

Image Diffusion

Ref: High-Resolution Image Synthesis with Latent Diffusion Models

[Submitted on 20 Dec 2021 (v1), last revised 13 Apr 2022 (this version, v2)]

High-Resolution Image Synthesis with Latent Diffusion Models

Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer

资源二

Ref: 视频生成-Animater diffusion和 A Survey on Video Diffusion Models的研究分享 [B站]

论文追踪：https://github.com/ChenHsing/Awesome-Video-Diffusion-Models

阅读笔记，1小时56分钟。

General Text-to-video Generation

第一步，希望只学到高质量的 feature。所以先训练一个 domain adapter。

第二步，才利用video 训练 motion module（运动建模模块）。

第三步，可选，在 motion module 上加 adapter layer 快速得到新的pattern 上。

39:30开始

A Survey on Video Diffusion Models.

2022年只有14篇，开山之年。

CogVideo 基于自回归方案：https://github.com/THUDM/CogVideo，但效果不满意。

之后是基于Diffusion 的方案，例如 VDM，没有基于 “隐藏变量”，改为用 3D convolution。

Nvidia 的基于 “隐空间” 的 LDM方案：Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models（效果开始不错，但太模糊）

【黎明】

AnimateDiff: AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning, 2023.7

简单来说，就是在冻结的文生图模型中附加一个新初始化的 "运动建模模块"，

然后用视频片段数据集对 "运动建模模块" 进行训练，以提炼出合理的运动先验。

训练完成后，只需往文生图模型中插入该 "运动建模模块"，文生图模型就能轻松成为文本驱动的视频生成模型，生成多样化和个性化的动画图像。

【曙光】

Diffusion-based T2V Methods (LLM guided) 文本的理解能力受限，论文链接，2023.8（证明了text质量的重要性）

【日出】

Make Pixels Dance 首尾帧作为 condition，再继续根据文字生成中间的部分。生成质量有很大的改善。Submitted on 18 Nov 2023 [看好，但不开源]

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation, Submitted on 30 Nov 2023

我们介绍了MicroCinema，这是一个简单而有效的框架，用于生成高质量和连贯的文本到视频。与直接将文本提示与视频对齐的现有方法不同，MicroCinema引入了一种分而治之的策略，将文本到视频分为两个阶段的过程：文本到图像生成和图像&文本到视频生成。

这种策略提供了两个重要的优点。

a）它使我们能够充分利用文本到图像模型的最新进展，例如Stable Diffusion，Midjourney和DALLE，以生成逼真且高度详细的图像。

b）利用生成的图像，模型可以将更少的注意力集中在细粒度的外观细节上，优先考虑运动动力学的高效学习。

为了有效实施这种策略，我们引入了两个核心设计。首先，我们提出了Appearance Injection Network，增强了给定图像外观的保留。其次，我们引入了Appearance Noise Prior，这是一种旨在保持预训练2D扩散模型能力的新颖机制。这些设计元素使MicroCinema能够生成具有精确运动的高质量视频，由提供的文本提示指导。广泛的实验证明了所提出框架的优越性。具体而言，MicroCinema在UCF-101上实现了342.86的SOTA zero-shot FVD，在MSR-VTT上实现了377.401。