2025 年 4月 26 日随笔档案 - 爱露查

2025年4月26日

摘要：语音克隆：基于SV迁移学习的TTS模型 1：个性化的语音特征提取器（只需要五秒钟左右） 2：语音合成器，将文本转换为语音特征 3：声码器：将语音特征转换成音频输出（将前两个得到的矢量拼接起来） github地址：github.com/CorentinJ/Real-Time-Voice-Clonin 阅读全文

posted @ 2025-04-26 15:04 爱露查阅读(95) 评论(0) 推荐(0)

Tacotron2

摘要： 1.数据下载与准备： BZNSYP（包含10000条语音，有音素，采样频率48000Hz） 2.数据预处理：提取音频特征（fbank特征）；文本处理，归一化，将拼音分成分母韵母两部分，加上停顿、起始符、终止符；（参考了athena部分代码，里面有拼音的字典文件） 3.构建数据集：文本特征：使用p 阅读全文

posted @ 2025-04-26 14:30 爱露查阅读(45) 评论(0) 推荐(0)

LXZLoo

公告