从零实现基于扩散模型的文本到视频生成系统：技术详解与Pytorch代码实现

本文详细介绍了基于扩散模型构建的文本到视频生成系统，展示了在MSRV-TT和Shutterstock视频标注数据集上训练的模型输出结果。以下是模型在不同提示词下的生成示例。
首先展示一些模型生成效果展示

提示词：**"A person holding a camera"**（训练10K步）

拿相机的人物场景

提示词：**"Spaceship crossing the bridge"**（训练10K步）

飞船穿过桥梁场景

提示词：**"News Reporter speaking"**（训练10K步）

新闻记者讲话场景

在Moving Mnist数据集上训练的模型（训练5K步）

使用训练模型生成的合成Moving Mnist数据

posted @ 2025-04-12 10:51 deephub 阅读(85) 评论(0) 收藏举报

刷新页面返回顶部

deephub