深度学习与人类语言处理-语音识别(part3)

上节回顾深度学习与人类语言处理-语音识别(part2)，这节课我们接着看seq2seq模型怎么做语音识别

上节课我们知道LAS做语音识别需要看完一个完整的序列才能输出，把我们希望语音识别模型可以在听到声音的时候就进行输出，一个直观的想法就是用单向的RNN，我们来看看CTC是怎么做的

CTC

根据上面说的，在线语音识别，模型在听到声音的时候就需要输出，我们看下使用RNN的基本架构

input: 长度为T的声学特征
Encoder：单向RNN
ouput：长度为T的token,每一个输出位置对应词典中每个词的概率

但是对每一个输入的声学特征不总是会有对应的输出token，每一声学特征所包含的信息是非常少的，所以CTC在输出的词汇表中加入了一个标记\(\phi\)，表示什么也没有，词典大小变为V+1

ouput：长度为T的token,其中包括 𝜙, 需要合并重复的token，移除𝜙

举例来说：

但是这里我们会发现一个问题，对于一个真实的输出，\(\phi\) 的位置有很多种情况，举个栗子

真实的输入输出：

input：\(x1,x2,x3,x4\) ; ouput: 好棒

可能的输出：

好好棒\(\phi\), \(\phi\)好好棒, 好好棒棒 , 好棒\(\phi\phi\), 好\(\phi\)棒……

所以CTC在训练的时候需要穷举所有可能组合，这个我们后面再讲

CTC work 吗？

从这个结果我们可以看到，CTC的表现很惨，在没有使用其他方法处理的情况下已经坏掉了，比LAS坏了很多，但是在加入语言模型调整后，已经可以work了

issue

那CTC存在什么问题呢？

每一步的输出是独立的

假设前三个输入都属于“c”的声学特征，但是模型在看到第一个输入就输出了“c“，第二步输出\(\phi\), 第三步又输出了”c"，那最终的输出就是“cc”，显然不对啊

RNN Transducer (RNN-T)

在介绍RNN-T之前，我们先看下RNA（Recurrent Neural Aligner）,不是核糖核酸啊

CTC Decoder（把CTC的softmax看做Decoder）

CTC的每一个输出是相互独立的

RNA（把softmax换成RNN）

在从上面的图可以看到，RNA就是增加了输出之间的依赖，把CTC的线性分类层换成RNN就可以了

目前为止我们看到的都是吃一个输入，输出一个token，那有没有可能吃一个输入，输出多个token呢？举例来说，输入为“th”，只有一个音，但是需要两个输出。当然也可以把“th”作为一个单独的token加入到词典

RNN-T就是为了解决这个问题

每次看到一个\(h^t\)，输出对应的token，直到对应输入被解码完了，就输出一个\(\phi\)，告诉模型给我下一个输入，所以一共会有T个\(\phi\) 会被输出

RNN-T和CTC有同样的组合问题：

假设“好棒”有四个声学特征：
𝜙1 好 𝜙2 𝜙3 𝜙4 𝜙5 棒 𝜙6
𝜙1 𝜙2 𝜙3 𝜙4 𝜙5 好 棒 𝜙6

RNN-T同样会在训练时穷举所有的组合

实际上RNN-T训练了一个独立的RNN网络，输出会被接到RNN，\(\phi\)会被忽略

为什么需要额外的RNN呢？

这个RNN相当于一个语言模型，只接受token作为输入。所以可以直接先用大量文字训练RNN
刚才说到输出中\(\phi\) 的位置有很多种可能，如果RNN把\(\phi\)也作为输入，在对所有组合进行训练是很困难的

Neural Transducer

前面的几个模型每次都是输入一个，Neural Transducer 一次接受窗口范围的输入

对Encoder的输出，每次取一个窗口作为Decoder的输入，先做一下attention然后开始输出，每次输出\(\phi\) 就会读下一个窗口

那窗口的长度应该设置多长呢？文献中实验了不同的长度

在没有用attention时，长度变长后结果就坏掉了

使用attention后，发现长度变化对结果影响不是很大

MoChA: Monotonic Chunkwise Attention

在Neural Transducer 每次窗口长度是固定的，在MoChA中设计了动态的窗口

首先使用attention决定窗口应该放在哪里，然后对每一个窗口输出一个token，注意这里不需要\(\phi\) 了，然后移动找下一个窗口

Summary

总结一下语音识别中用到的几个seq2seq模型

LAS：就是seq2seq
CTC：decoder 是 linear classifier 的 seq2seq
RNA：decoder 是 RNN 的seq2seq，输入一个就要输出一个
RNN-T: decoder 是 RNN ，输入一个就要输出多个的 seq2seq
Neural Transducer：每次输入一个 window 的 RNN-T
MoCha： window 移动伸缩自如的 Neural Transducer

references:
http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html

posted @ 2020-03-21 10:23 鱼与鱼阅读(2055) 评论(0) 收藏举报

刷新页面返回顶部

大鱼吃小鱼，小鱼吃虾米