摘要: 一.合成器 1.合成器的文本输入被处理成512维的character embedding,具体如下图所示: 2.建议参考B站视频:语音合成超简洁训练代码框架 二.GSTs 1.由于原Tacotron的encoder输出为256维度,与说话人编码器的输出speaker embedding(也是256维 阅读全文
posted @ 2022-05-26 23:39 孜孜不倦fly 阅读(198) 评论(0) 推荐(0)