Tacotron2

1.数据下载与准备:

  BZNSYP(包含10000条语音,有音素,采样频率48000Hz)

2.数据预处理:

  提取音频特征(fbank特征);文本处理,归一化,将拼音分成分母韵母两部分,加上停顿、起始符、终止符;(参考了athena部分代码,里面有拼音的字典文件)

3.构建数据集:

  文本特征:使用padding保持序列长度一致;把音素转换成数字编码;

  音频特征:要对最大帧长进行拓展,使得能够被每一步处理的帧数整除;最后一帧往后的padding都是1;

4.模型部分:

  LinearNorm:线性层,使用xavier_uniform_进行初始化

   ConvNorm:卷积层,初始化同上

   Encoder:3个卷积层(卷积+批归一化+RELU)+1个LSTM(双向LSTM),用rnn.pack_padded_sequence和rnn.pack_packed_sequence进行压缩和填充;

   Prenet:两个线性层,维度变换

   Decoder:两个RNN(attention rnn和decoder rnn),线性映射层;Attention部分:

   Postnet:5层CNN,对解码器输出进行重构

  

posted @ 2025-04-26 14:30  爱露查  阅读(33)  评论(0)    收藏  举报