草莓♭布丁

导航

A卡配置sovits4.1步骤参考(Ubuntu20.04)

书接上回,4.0版本的配置:https://www.cnblogs.com/strawberryPudding/p/17280672.html

近日,sovits4.1更新了,更新了一个浅扩散模型,来研究一下。

一、环境配置

1,项目拉取

 项目地址:https://github.com/svc-develop-team/so-vits-svc

2,依赖安装

删除配置文件中的torch选项,抽出来单独安装。显卡驱动和torch可以参考之前的4.0版本

 使用cd命令打开项目路径,清华换源然后安装依赖:

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

pip install -r requirements.txt

(注:如果换源后出现什么故障,需要换回原来的可以pip config set global.index-url https://pypi.Python.org/simple/)

这里我直接一遍过,并无报错,可能是之前装过4.0,大部分依赖已经有了,出现报错可以参考之前的文章。

3,模型文件

  底模文件还是放在logs/44k下面。扩散模型的底模(model_0.pt)放在logs/44k/diffusion下面

  和之前不同的是,编码器和nsf模型(浅层扩散要用)全都放入pretrain中

整合资源还是和之前放在一起:

链接:https://pan.baidu.com/s/1_Cx19msrqCoK62TeX_TdRA
提取码:p6dd

二、模型训练

和4.0一样,运行所有代码之前,RDNA2架构的显卡需要先在命令行输入export HSA_OVERRIDE_GFX_VERSION=10.3.0

如果是RDNA架构,则是export HSA_OVERRIDE_GFX_VERSION=10.1.0

1,数据集处理

python resample.py
python preprocess_flist_config.py --speech_encoder vec768l12
python preprocess_hubert_f0.py --f0_predictor dio(默认dio,可选crepe,dio,pm,harvest)
如果使用浅层扩散:python preprocess_hubert_f0.py --f0_predictor dio --use_diff

需要注意的是,此处的编码器默认是768l12,而4.0版本默认是256l9,所以如果需要使用老模型,需要在配置文件加入:

   "model": {
    .........
    "ssl_dim": 256,
    "n_speakers": 200,
    "speech_encoder":"vec256l9"
  }

2,模型训练

主模型训练:python train.py -c configs/config.json -m 44k
浅层扩散模型训练:python train_diff.py -c configs/diffusion.yaml

但是默认的参数可能并不适合,需要手动调整,我这里是12G显存,你们自行随机应变,爆显存可能会自动关机。

主模型默认batch6,lr0.0001,我调成了12,0.0002。这里learning rate一般要同比例缩放

浅扩散默认是batch48,lr0.0002,我调成了24,0.0001。(不知道是否需要继续下调,我跑了4000步之后还是自动关机了)主模型训练大家应该都见过,浅扩散模型训练起来长这样

 

三、模型推理:

模型推理用之前的命令也可以运行,建议直接使用webUI

python webUI.py

 此处仅用于演示,实际使用中最好把模型训练到10000步左右

posted on 2023-06-12 12:29  草莓♭布丁  阅读(2181)  评论(0编辑  收藏  举报

Live2D