从零实现基于扩散模型的文本到视频生成系统:技术详解与Pytorch代码实现

本文详细介绍了基于扩散模型构建的文本到视频生成系统,展示了在MSRV-TT和Shutterstock视频标注数据集上训练的模型输出结果。以下是模型在不同提示词下的生成示例。
首先展示一些模型生成效果展示

提示词:**"A person holding a camera"**(训练10K步)

拿相机的人物场景

提示词:**"Spaceship crossing the bridge"**(训练10K步)

飞船穿过桥梁场景

提示词:**"News Reporter speaking"**(训练10K步)

新闻记者讲话场景

在Moving Mnist数据集上训练的模型(训练5K步)

使用训练模型生成的合成Moving Mnist数据

 

https://avoid.overfit.cn/post/88567712b4f547469d74113f6d0810e0

posted @ 2025-04-12 10:51  deephub  阅读(21)  评论(0)    收藏  举报