08 2018 档案
摘要:Attention 机制 1. 介绍Attention机制过程中,经常提到t时刻或者i位置,其实这两种表述本质上是一样的,只不过是序列在不同问题上表达方式不同而已. 在机器翻译中,使用术语位置更合适些;而在语音识别中使用术语时刻更合适些. 2. 先清楚几个变量(以机器翻译为例) 2.1 $X$: 待
阅读全文
摘要:DeepSpeech2中主要讲的几点 1. 网络结构 convolution layers rnn layers one fully connected layer 网络结构的输入是音频信号的频谱特征, 输出的是字母表中的一个个字母.(不同语言的字母表不一样). 训练是采用CTC损失函数. 在推理过
阅读全文
摘要: 基于注意机制的编码解码结构例如LAS(Listen,Attention,Spell),将声学模型,发音模型和语言模型统一在一起,使得语音识别做到了端到端训练. 本文在LAS基础上,在建模结构和优化过程这两个方面做出了一些改进,从而显著地提升模型性能.建
阅读全文
摘要:Attention is all you need 3 模型结构 大多数牛掰的序列传导模型都具有encoder decoder结构. 此处的encoder模块将输入的符号序列$(x_1,x_2,...,x_n)$映射为连续的表示序列${\bf z} =
阅读全文

浙公网安备 33010602011771号