本地搭建一个图片对嘴转视频工具-进阶版

上一章介绍了通过ComfyUI_Sonic模型实现图片+音频导出视频的图片对嘴的模型搭建,今天介绍一个进阶版(带表情的)。

 

1:官方要求的是GPU:20GB或更多 VRAM 的 GPU ,我的是8G的GPU,能运行起来,就是生成速度慢些。

 

2:代码下载。

下载地址:https://github.com/toto222/DICE-Talk

 

 下载解压后,去下载模型,跟前一章的ComfyUI_Sonic模型只有一个不一样,其他的可以直接复制过来就行。

 

模型下载: pretrain modelsvd-xt and whisper-tiny  

 

 

3:安装,先直接运行就行

 python .\gradio_app.py 

 

如果报错,借助AI,差什么包,就安装什么包就行。

 

4: 使用

启动成功后,浏览器访问:http://127.0.0.1:8081/

 

 

 

下面是官方提供的一些表情例子:

 

 

 

5:生成

如果你的电脑GPU比较大,那生成的速度应该是比较快的,等待视频生成后。

 我的8G的GPU根本不够用,13秒音频一晚上都没生成完。噗~。

 

 

 

介绍一个音频克隆:https://github.com/RVC-Boss/GPT-SoVITS

 

posted @ 2025-07-02 09:47  Joy_CShow  阅读(126)  评论(0)    收藏  举报