目前需要一个克隆音色
线上:minimax GPT-SOVITS
开源:index-tts CosyVoice gpt-sovits
着急使用就直接使用了minimax的了,
fishSpeech 不完全开源 有mini的开源版本
| 名称 | 样本文件 | 自己训练模型 | 情感 | 公司 |
| index-tts | 10s内? | 不支持 | bilibili | |
| CosyVoice2 | 30s | 支持 | 阿里 | |
| GPT-SoVITS | 3~10s | 支持 | 是 | RVC |
| minimax.io | 300s |
对于带有方言 ,果然还是得自己训练。那些只考3~10秒就想出比较满意的效果。是很难的。
目前感觉gpt-sovits应该是比较接近自己的需求。而且音频的基础功能都很丰富。比如人声分离,切片,纠正。删除。
审查时可以删除切片也很重要,的对于直播中的场景很适用,直接在webui可以删除非主播的人声。素材也比较多。所以可以直接去掉。
对了,我使用的是BV1NBMhzTE2p这个教材。不过里面着教了简单的使用。具体的参数没有对比效果。
最终确定的是 SoVITS
期待有效果。
minimax呢,昨天用了默认的效果,说是不行。跟念稿子一样。还得尝试。换成别的情感感觉怎么样。
关于多声部分离目前的还没有找到合适的。一条一条自己审核呀~自己手动删除。好像adobe有个软件的音频软件。太久没有使用了。
| 数据时长 | SoVITS轮次 | GPT轮次 | 最小显存 | 推荐Batch Size | 训练时间* | 自然度(MOS) | 音色还原度 | 适用场景 |
|---|---|---|---|---|---|---|---|---|
| 10分钟 | 8轮 | 12轮 | 6GB | S:4 G:2 |
1.5小时 | 3.6 | 4.0 | 音色克隆演示 (需高质纯净语音) |
| 15分钟 | 10轮 | 15轮 | 8GB | S:6 G:3 |
2小时 | 3.8 | 4.1 | 虚拟主播基础音色 |
| 30分钟 | 12轮 | 18轮 | 12GB | S:8 G:4 |
3.5小时 | 4.1 | 4.3 | 口播/配音商业化 |
| 1小时 | 15轮 | 25轮 | 24GB | S:10 G:6 |
6小时 | 4.3 | 4.5 | 方言/口音工程 |
| 2小时 | 18轮 | 35轮 | 24GB+ | S:12 G:8 |
18小时 | 4.6 | 4.7 | 专业声库制作 |
| 4小时 | 20轮 | 40轮 | 48GB | S:16 G:12 |
35小时+ | 4.8 | 4.9 | 影视级配音克隆 |
上面这份表,是deepseek给我的,也不知道准不准确。
目前使用了1小时左右。12轮sovit,25轮。训练出来的音色与语气已经很接近了。但是存在大舌头的情况。
也许是原始数据就有些问题。也许是素材还不太够。也许是一些长句没有保留得很好。比如,切分时,太细了。都控制在10s内了。导致的。
有时候呢,也要避免过度训练。真是磨人。
建议是30分钟。不能杂音混响。
top_k值提升,
top_pd
合成轮数 越低口齿会更清晰,但语气会差一些。
高轮次,语气好,但存在声音泄露的问题。
终于找到了一个参数说明的视频:BV171421o7Ef

增加训练轮数(超过50)需要修改 代码。

30分钟以上的学习率可以调整到0.3
语气要求没那么高的,GPT15轮比较好。sovit选择越大越好。
关闭推理后再重新打开是解决声音泄露很好的办法。
浙公网安备 33010602011771号