摘要: 论文: Compact Feedforward Sequential Memory Networks for Large Vocabulary Continuous Speech Recognition 思想: 对FSMN的模型尺寸方面进行了优化改进, 1)隐藏层后接低秩的线性矩阵,并对线性层的输出 阅读全文
posted @ 2020-09-16 10:43 卑微的蜗牛 阅读(542) 评论(0) 推荐(0) 编辑
摘要: 论文: Feedforward Sequential Memory Networks:A New Structure to Learn Long-term Dependency 思想: 因为RNN类结构,包括LSTM,在训练时采用BPTT进行反向传播,容易引发梯度消失和爆炸的问题,造成训练不稳定;此 阅读全文
posted @ 2020-09-16 10:32 卑微的蜗牛 阅读(810) 评论(0) 推荐(0) 编辑
摘要: 论文: IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION 思想: BLSTM作为当前主流的序列建模算法,在语音识别领域取得了不错的效果。但因为BLSTM的双向LSTM结构,在序列建模时需要 阅读全文
posted @ 2020-09-16 10:11 卑微的蜗牛 阅读(1199) 评论(0) 推荐(0) 编辑
摘要: 论文: EESEN:END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING 现状: 混合DNN仍然GMM为其提供初始化的帧对齐,需要迭代训练强制对齐,以及决策树 end2end的asr面临问题: 如何将发 阅读全文
posted @ 2020-09-15 23:06 卑微的蜗牛 阅读(1389) 评论(0) 推荐(0) 编辑
摘要: 论文: EXPLORING ARCHITECTURES, DATA AND UNITS FOR STREAMING END-TO-END SPEECH RECOGNITION WITH RNN-TRANSDUCER,2018 CTC的一个问题在于,其假设当前帧的输出与历史输出之间的条件独立性;RNN 阅读全文
posted @ 2020-09-15 22:26 卑微的蜗牛 阅读(4833) 评论(0) 推荐(0) 编辑
摘要: 论文: RNNT:SPEECH RECOGNITION WITH DEEP RECURRENT NEURAL NETWORKS,2013 LSTM结构: 多层双向LSTM结构: 思想: CTC对于当前时刻的输出只与当前时刻输入有关p(k|t),而RNN-T引入语音学的信息,不仅与当前时刻输入有关,还 阅读全文
posted @ 2020-09-15 22:14 卑微的蜗牛 阅读(2407) 评论(0) 推荐(0) 编辑
摘要: LAS: listen, attented and spell,Google 思想: sequence to sequence的思想,模型分为encoder和decoder两部分,首先将任意长的输入序列通过encoder转化为定长的特征表达,然后输入到decoder再转化为任意长的输出序列;相比于传 阅读全文
posted @ 2020-09-13 16:00 卑微的蜗牛 阅读(1993) 评论(0) 推荐(0) 编辑
摘要: 论文: CTC:Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks 思想: 语音识别中,一般包含语音段和对应的文本标签,但是却并不知道具体的 阅读全文
posted @ 2020-09-13 15:36 卑微的蜗牛 阅读(1740) 评论(0) 推荐(0) 编辑
摘要: 论文: CLDNN: CONVOLUTIONAL, LONG SHORT-TERM MEMORY,FULLY CONNECTED DEEP NEURAL NETWORKS,Google 思想: CNN、LSTM和DNN进行整合,发挥各个部分的建模能力; 1)CNN:学习频域不变形能力; 2)LSTM 阅读全文
posted @ 2020-09-12 20:18 卑微的蜗牛 阅读(1677) 评论(0) 推荐(0) 编辑
摘要: 论文: Self-Attentive Speaker Embeddings for Text-Independent Speaker Verification 思想: 本文主要是对x-vector的统计池化结构进行改进,引入self-attention机制,得到带权重的均值和标准方差,这样一方面可以 阅读全文
posted @ 2020-09-12 17:42 卑微的蜗牛 阅读(988) 评论(0) 推荐(0) 编辑