合成自己的声音并转成Onnx提供给Lazarus调用

生成语音库
1、https://aistudio.baidu.com/projectdetail/5825792 项目点击运行一下，选择32G显卡运行。
2、录音 24000hz 16Bit 单声道，10个以上。

3、在虚拟机中按提示安装软件。运行

bash env.sh
pip install typeguard==2.13 --user

4、运行untitled.streamlit.py 开始克隆你的声音

2分种没出来，可以删除项目重新建立一个

5、按提示操作，上传你的音频文件-检查文件-训练文件等，到合成声音并能听到你想要的声音，就可以退出untitled.streamlit.py了。

6、安装 paddle2onnx Onnxruntime 运行

pip install paddle2onnx

7、转Onnx

paddle2onnx --model_dir /home/aistudio/inference/sound \
--model_filename /home/aistudio/inference/sound/fastspeech2_mix.pdmodel \
--params_filename /home/aistudio/inference/sound/fastspeech2_mix.pdiparams \
--save_file /home/aistudio/data/model.onnx \
--opset_version 13

上面的目录sound就是在untitled.streamlit.py中的项目名称。

得到的Onnx输入是

text
name: text
tensor: int64[-1] //这里是音素，不是字符码值
spk_id
name: spk_id
tensor: int64[1] //这里可以查看speaker_id_map.txt文件中的id号
输出是
name: elementwise_add_XXX
tensor: float32[-1,80]

这里注意还要下载/home/aistudio/inference/sound目录下的phone_id_map.txt 音素表文件和speaker_id_map.txt文件。

posted on 2025-02-21 21:39 禁卫军阅读(73) 评论(0) 收藏举报