A卡配置sovits4.1步骤参考（Ubuntu20.04）

书接上回，4.0版本的配置：https://www.cnblogs.com/strawberryPudding/p/17280672.html

近日，sovits4.1更新了，更新了一个浅扩散模型，来研究一下。

一、环境配置

1，项目拉取

项目地址：https://github.com/svc-develop-team/so-vits-svc

2，依赖安装

删除配置文件中的torch选项，抽出来单独安装。显卡驱动和torch可以参考之前的4.0版本

使用cd命令打开项目路径，清华换源然后安装依赖：

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

pip install -r requirements.txt

（注：如果换源后出现什么故障，需要换回原来的可以pip config set global.index-url https://pypi.Python.org/simple/）

这里我直接一遍过，并无报错，可能是之前装过4.0，大部分依赖已经有了，出现报错可以参考之前的文章。

3，模型文件

　　底模文件还是放在logs/44k下面。扩散模型的底模（model_0.pt）放在logs/44k/diffusion下面

　　和之前不同的是，编码器和nsf模型（浅层扩散要用）全都放入pretrain中

整合资源还是和之前放在一起：

链接：https://pan.baidu.com/s/1_Cx19msrqCoK62TeX_TdRA
提取码：p6dd

二、模型训练

和4.0一样，运行所有代码之前，RDNA2架构的显卡需要先在命令行输入export HSA_OVERRIDE_GFX_VERSION=10.3.0

如果是RDNA架构，则是export HSA_OVERRIDE_GFX_VERSION=10.1.0

1，数据集处理

python resample.py
python preprocess_flist_config.py --speech_encoder vec768l12
python preprocess_hubert_f0.py --f0_predictor dio（默认dio，可选crepe，dio，pm，harvest）
如果使用浅层扩散：python preprocess_hubert_f0.py --f0_predictor dio --use_diff

需要注意的是，此处的编码器默认是768l12，而4.0版本默认是256l9，所以如果需要使用老模型，需要在配置文件加入：

   "model": {
    .........
    "ssl_dim": 256,
    "n_speakers": 200,
    "speech_encoder":"vec256l9"
}

2，模型训练

主模型训练：python train.py -c configs/config.json -m 44k
浅层扩散模型训练：python train_diff.py -c configs/diffusion.yaml

但是默认的参数可能并不适合，需要手动调整，我这里是12G显存，你们自行随机应变，爆显存可能会自动关机。

主模型默认batch6，lr0.0001，我调成了12，0.0002。这里learning rate一般要同比例缩放

浅扩散默认是batch48，lr0.0002，我调成了24，0.0001。（不知道是否需要继续下调，我跑了4000步之后还是自动关机了）主模型训练大家应该都见过，浅扩散模型训练起来长这样

三、模型推理：

模型推理用之前的命令也可以运行，建议直接使用webUI

python webUI.py

此处仅用于演示，实际使用中最好把模型训练到10000步左右

posted on 2023-06-12 12:29 草莓♭布丁阅读(3667) 评论(0) 收藏举报

刷新页面返回顶部

草莓♭布丁

导航

公告