摘要: 本文详细介绍了基于扩散模型构建的文本到视频生成系统,展示了在MSRV-TT和Shutterstock视频标注数据集上训练的模型输出结果。以下是模型在不同提示词下的生成示例。首先展示一些模型生成效果展示 提示词:**"A person holding a camera"**(训练10K步) 拿相机的人 阅读全文
posted @ 2025-04-12 10:51 deephub 阅读(38) 评论(0) 推荐(0)