tts哪家强?

Posted on 2025-07-10 16:02  kacoro  阅读(91)  评论(0)    收藏  举报

目前需要一个克隆音色

线上:minimax GPT-SOVITS

开源:index-tts  CosyVoice gpt-sovits

着急使用就直接使用了minimax的了,

fishSpeech 不完全开源 有mini的开源版本

 

 

 

名称 样本文件 自己训练模型  情感 公司
index-tts 10s内?   不支持   bilibili
CosyVoice2 30s  支持   阿里
GPT-SoVITS 3~10s 支持 RVC 
minimax.io  300s      

 

  

 

 

 

 

 

对于带有方言 ,果然还是得自己训练。那些只考3~10秒就想出比较满意的效果。是很难的。

目前感觉gpt-sovits应该是比较接近自己的需求。而且音频的基础功能都很丰富。比如人声分离,切片,纠正。删除。

审查时可以删除切片也很重要,的对于直播中的场景很适用,直接在webui可以删除非主播的人声。素材也比较多。所以可以直接去掉。

对了,我使用的是BV1NBMhzTE2p这个教材。不过里面着教了简单的使用。具体的参数没有对比效果。

 

最终确定的是 SoVITS 

 

期待有效果。

minimax呢,昨天用了默认的效果,说是不行。跟念稿子一样。还得尝试。换成别的情感感觉怎么样。

 关于多声部分离目前的还没有找到合适的。一条一条自己审核呀~自己手动删除。好像adobe有个软件的音频软件。太久没有使用了。

数据时长SoVITS轮次GPT轮次最小显存推荐Batch Size训练时间*自然度(MOS)音色还原度适用场景
​10分钟​ 8轮 12轮 6GB S:4
G:2
1.5小时 3.6 4.0 音色克隆演示
(需高质纯净语音)
​15分钟​ 10轮 15轮 8GB S:6
G:3
2小时 3.8 4.1 虚拟主播基础音色
​30分钟​ 12轮 18轮 12GB S:8
G:4
3.5小时 4.1 4.3 口播/配音商业化
​1小时​ 15轮 25轮 24GB S:10
G:6
6小时 4.3 4.5 方言/口音工程
​2小时​ 18轮 35轮 24GB+ S:12
G:8
18小时 4.6 4.7 专业声库制作
​4小时​ 20轮 40轮 48GB S:16
G:12
35小时+ 4.8 4.9 影视级配音克隆

 

 

 

 

 

 

 

 

 

 

上面这份表,是deepseek给我的,也不知道准不准确。 

目前使用了1小时左右。12轮sovit,25轮。训练出来的音色与语气已经很接近了。但是存在大舌头的情况。

也许是原始数据就有些问题。也许是素材还不太够。也许是一些长句没有保留得很好。比如,切分时,太细了。都控制在10s内了。导致的。

有时候呢,也要避免过度训练。真是磨人。

 

建议是30分钟。不能杂音混响。

top_k值提升,

top_pd

 

合成轮数 越低口齿会更清晰,但语气会差一些。

高轮次,语气好,但存在声音泄露的问题。

 

 终于找到了一个参数说明的视频:BV171421o7Ef

 

 增加训练轮数(超过50)需要修改 代码。

30分钟以上的学习率可以调整到0.3

语气要求没那么高的,GPT15轮比较好。sovit选择越大越好。

 

关闭推理后再重新打开是解决声音泄露很好的办法。