Tacotron2

1.数据下载与准备：

BZNSYP（包含10000条语音，有音素，采样频率48000Hz）

2.数据预处理：

提取音频特征（fbank特征）；文本处理，归一化，将拼音分成分母韵母两部分，加上停顿、起始符、终止符；（参考了athena部分代码，里面有拼音的字典文件）

3.构建数据集：

文本特征：使用padding保持序列长度一致；把音素转换成数字编码；

音频特征：要对最大帧长进行拓展，使得能够被每一步处理的帧数整除；最后一帧往后的padding都是1；

4.模型部分：

LinearNorm：线性层，使用xavier_uniform_进行初始化

ConvNorm：卷积层，初始化同上

Encoder：3个卷积层（卷积+批归一化+RELU）+1个LSTM（双向LSTM），用rnn.pack_padded_sequence和rnn.pack_packed_sequence进行压缩和填充；

Prenet：两个线性层，维度变换

Decoder：两个RNN（attention rnn和decoder rnn），线性映射层；Attention部分：

Postnet：5层CNN，对解码器输出进行重构

posted @ 2025-04-26 14:30 爱露查阅读(59) 评论(0) 收藏举报

刷新页面返回顶部

LXZLoo