本地搭建一个图片对嘴转视频工具-进阶版

上一章介绍了通过ComfyUI_Sonic模型实现图片+音频导出视频的图片对嘴的模型搭建，今天介绍一个进阶版（带表情的）。

1：官方要求的是GPU:20GB或更多 VRAM 的 GPU ,我的是8G的GPU,能运行起来，就是生成速度慢些。

2：代码下载。

下载地址：https://github.com/toto222/DICE-Talk

下载解压后，去下载模型，跟前一章的ComfyUI_Sonic模型只有一个不一样，其他的可以直接复制过来就行。

3：安装，先直接运行就行

 python .\gradio_app.py

如果报错，借助AI，差什么包，就安装什么包就行。

4：使用

启动成功后，浏览器访问：http://127.0.0.1:8081/

下面是官方提供的一些表情例子：

5：生成

如果你的电脑GPU比较大，那生成的速度应该是比较快的，等待视频生成后。

我的8G的GPU根本不够用，13秒音频一晚上都没生成完。噗~。

posted @ 2025-07-02 09:47 Joy_CShow 阅读(126) 评论(0) 收藏举报

刷新页面返回顶部

但行好事.莫问前程