摘要: 一.Encoder:GE2E 参考知乎网址:GE2E论文解读 小结: 1.模型结构图: 2.输入为40-dim log-mel spectrogram,输出低维的speaker embedding 3.目标:拉近说话人embedding和对应质心的距离,拉远该embedding和其他说话人的质心.在 阅读全文
posted @ 2022-03-14 19:45 孜孜不倦fly 阅读(827) 评论(0) 推荐(0)