tts哪家强？

Posted on 2025-07-10 16:02 kacoro 阅读(121) 评论(0) 收藏举报

目前需要一个克隆音色

线上：minimax GPT-SOVITS

开源：index-tts CosyVoice gpt-sovits

着急使用就直接使用了minimax的了，

fishSpeech 不完全开源有mini的开源版本

对于带有方言，果然还是得自己训练。那些只考3~10秒就想出比较满意的效果。是很难的。

目前感觉gpt-sovits应该是比较接近自己的需求。而且音频的基础功能都很丰富。比如人声分离，切片，纠正。删除。

审查时可以删除切片也很重要，的对于直播中的场景很适用，直接在webui可以删除非主播的人声。素材也比较多。所以可以直接去掉。

对了，我使用的是BV1NBMhzTE2p这个教材。不过里面着教了简单的使用。具体的参数没有对比效果。

最终确定的是 SoVITS

期待有效果。

minimax呢，昨天用了默认的效果，说是不行。跟念稿子一样。还得尝试。换成别的情感感觉怎么样。

关于多声部分离目前的还没有找到合适的。一条一条自己审核呀~自己手动删除。好像adobe有个软件的音频软件。太久没有使用了。

数据时长	SoVITS轮次	GPT轮次	最小显存	推荐Batch Size	训练时间*	自然度(MOS)	音色还原度	适用场景
10分钟	8轮	12轮	6GB	S:4 G:2	1.5小时	3.6	4.0	音色克隆演示 (需高质纯净语音)
15分钟	10轮	15轮	8GB	S:6 G:3	2小时	3.8	4.1	虚拟主播基础音色
30分钟	12轮	18轮	12GB	S:8 G:4	3.5小时	4.1	4.3	口播/配音商业化
1小时	15轮	25轮	24GB	S:10 G:6	6小时	4.3	4.5	方言/口音工程
2小时	18轮	35轮	24GB+	S:12 G:8	18小时	4.6	4.7	专业声库制作
4小时	20轮	40轮	48GB	S:16 G:12	35小时+	4.8	4.9	影视级配音克隆

上面这份表，是deepseek给我的，也不知道准不准确。

目前使用了1小时左右。12轮sovit，25轮。训练出来的音色与语气已经很接近了。但是存在大舌头的情况。

也许是原始数据就有些问题。也许是素材还不太够。也许是一些长句没有保留得很好。比如，切分时，太细了。都控制在10s内了。导致的。

有时候呢，也要避免过度训练。真是磨人。

建议是30分钟。不能杂音混响。

top_k值提升，

top_pd

合成轮数越低口齿会更清晰，但语气会差一些。

高轮次，语气好，但存在声音泄露的问题。

终于找到了一个参数说明的视频：BV171421o7Ef

增加训练轮数（超过50）需要修改代码。

30分钟以上的学习率可以调整到0.3

语气要求没那么高的，GPT15轮比较好。sovit选择越大越好。

关闭推理后再重新打开是解决声音泄露很好的办法。

刷新页面返回顶部