摘要: 语音克隆: 基于SV迁移学习的TTS模型 1:个性化的语音特征提取器(只需要五秒钟左右) 2:语音合成器,将文本转换为语音特征 3:声码器:将语音特征转换成音频输出(将前两个得到的矢量拼接起来) github地址:github.com/CorentinJ/Real-Time-Voice-Clonin 阅读全文
posted @ 2025-04-26 15:04 爱露查 阅读(81) 评论(0) 推荐(0)
摘要: 1.数据下载与准备: BZNSYP(包含10000条语音,有音素,采样频率48000Hz) 2.数据预处理: 提取音频特征(fbank特征);文本处理,归一化,将拼音分成分母韵母两部分,加上停顿、起始符、终止符;(参考了athena部分代码,里面有拼音的字典文件) 3.构建数据集: 文本特征:使用p 阅读全文
posted @ 2025-04-26 14:30 爱露查 阅读(33) 评论(0) 推荐(0)