今天介绍几个开源的文字生成视频(Text-to-Video)项目。
像 Google Veo 3 或 OpenAI Sora 那样的电影级、高一致性、长时长的效果,是不是心动了。
之前有介绍过几款开源项目,我都在我的本地电脑上搭建成功了,而且试用过效果都不错。但是文字生成视频的我的电脑运行不起来,配置不够。GPU最低都是18G的,我的电脑只有8G。
所以这里只做介绍,本人并没有在机器上实现过。
图片+音频 生成对嘴视频一
图片+音频 生成对嘴视频二
音频+文字 生成新音频(音频克隆一)
音频+文字 生成新音频(音频克隆二)
视频+音频 生成对嘴视频
接下来我想自己做一个文字生成视频的过程中,在网上搜索来的,至少从简介和获得的星星数看,
还是非常不错的,有条件的可以在本地搭建一个玩玩看。
🐼 Open-Sora:想做“开源版 Sora”
简介:由开源社区发起,目标是复现 OpenAI Sora 的技术路线,致力于生成高质量、长时长的视频内容。
亮点:更新活跃,社区氛围好,路线紧跟 Sora。
不足:要达到 Sora 目前的水准,还需要大量训练时间与算力投入。
项目地址:https://github.com/hpcaitech/Open-Sora
⭐ Star 数:26.8K
🧠 Wan2.1:开放且先进的大规模视频生成模型
简介:基于阿里云Qwen大语言模型
- 👍 SOTA 性能:Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。
- 👍支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,兼容几乎所有消费级 GPU。它可在约 4 分钟内在 RTX 4090 上生成一段 5 秒的 480P 视频(无需量化等优化技术)。其性能甚至可与一些闭源型号相媲美。
- 👍多任务:Wan2.1在文本转视频、图像转视频、视频编辑、文本转图像和视频转音频方面表现出色,推动了视频生成领域的发展。
- 👍视觉文本生成:Wan2.1是第一个能够生成中文和英文文本的视频模型,具有强大的文本生成功能,可增强其实际应用。
- 👍强大的视频 VAE:Wan-VAE提供卓越的效率和性能,可对任意长度的 1080P 视频进行编码和解码,同时保留时间信息,使其成为视频和图像生成的理想基础。
项目地址:https://github.com/Wan-Video/Wan2.1
ComfyUI版本:https://github.com/kijai/ComfyUI-WanVideoWrapper
⭐ Star 数:13K
🧠 HunyuanVideo:来自腾讯的重磅选手
简介:这个项目是腾讯出的,架构上整合了图像生成和视频生成能力,用一句话概括就是:底子厚,跑得快。
亮点:它支持多卡推理,但你得有比较强的硬件,什么 A100 80G 这种,普通显卡有点够不着。
不足:对硬件要求比较高,比如需要显存 80GB 的 GPU。
项目地址:https://github.com/Tencent-Hunyuan/HunyuanVideo
⭐ Star 数:10.6K
⚡ LTX-Video:追求实时的视频生成体验
简介:这个是 Lightricks 开源的项目,特点就是生成速度快。
亮点:它用的是 DiT 架构,支持从图片生成视频、做关键帧动画、甚至视频“补全”。
不足:目前生成视频的时长和复杂性仍有一定限制,对硬件也有门槛。
项目地址:https://github.com/Lightricks/LTX-Video
⭐ Star 数:6.9K
🎞️ Allegro:专注短视频生成
简介:这个项目比较“小而美”,专注做短视频,像 6 秒、720p、15FPS 这种。你可以理解为,它不是为了生成一整段电影,而是把“短视频”这件事做到极致。
亮点:如果你就想做点 TikTok 风格、片头片尾那种,这个模型值得一试。
不足:受限于帧率和时长,适合轻量应用。
项目地址:https://github.com/rhymes-ai/Allegro
⭐ Star 数:1.1K
🧪 CogVideo:较早的文生视频探索者
简介:这是清华出的项目,是比较早期的一个文生视频模型了。它的技术路线是“站在图像生成的肩膀上”,把已有的图像模型拿来做视频拓展
亮点:模型体量大,思路清晰,提供了完整的基础框架。
不足:相较于最新模型,视频连贯性和画质上存在差距,推理硬件门槛较高。
项目地址:https://github.com/THUDM/CogVideo
⭐ Star 数:11.7K
🧩 未来展望:开源与闭源的差距还大吗?
Sora 和 Veo 3 目前代表了视频生成领域的最前沿技术,背后是成千上万小时的视频数据和高达数百万美元级别的算力支持。开源项目想要完全赶上它们,短期内还很难。
不过也不必悲观。开源社区的活跃度和更新速度非常惊人,像 Open-Sora、HunyuanVideo 这类项目正迅速进步,未来几年或许能在某些细分领域实现突破。
🎯 最后提醒:高质量视频生成≠人人能跑
目前主流的视频生成模型,对显卡的要求都不低。通常需要:
- 显存至少 24GB 起步
- 更复杂的模型甚至需要 80GB A100
- 级别显卡18GB 显存 是运行某些轻量模型的底线
如果你手上没有这样级别的设备,那建议先观望或使用第三方平台体验。