摘要:
语音克隆: 基于SV迁移学习的TTS模型 1:个性化的语音特征提取器(只需要五秒钟左右) 2:语音合成器,将文本转换为语音特征 3:声码器:将语音特征转换成音频输出(将前两个得到的矢量拼接起来) github地址:github.com/CorentinJ/Real-Time-Voice-Clonin 阅读全文
posted @ 2025-04-26 15:04
爱露查
阅读(81)
评论(0)
推荐(0)
摘要:
1.数据下载与准备: BZNSYP(包含10000条语音,有音素,采样频率48000Hz) 2.数据预处理: 提取音频特征(fbank特征);文本处理,归一化,将拼音分成分母韵母两部分,加上停顿、起始符、终止符;(参考了athena部分代码,里面有拼音的字典文件) 3.构建数据集: 文本特征:使用p 阅读全文
posted @ 2025-04-26 14:30
爱露查
阅读(33)
评论(0)
推荐(0)

浙公网安备 33010602011771号