Deep Learning for Environmentally Robust Speech Recognition-An Overview of Recent Developments
内容:语音识别综述;
目标:快速了解该领域,了解已有方法的大致框架;
第一节 引言 Introduction
对于纯净语音,语音识别的识别率已达到了与人齐平甚至更高的结果。目前仍有待研究的方向之一是在噪声环境下(包括加性噪声以及反射(reverberation)等)的语音识别(ASR)。本文介绍了对于时变噪声下的ASR研究综述。
针对含噪嗓音,一般的解决方法分为两种:(1)前端处理,也就是通过语音增强等算法使得信号或其提取的特征更接近纯净语音的结果;2)后端处理,主要是提升分类模型对噪声的鲁棒性。
前端处理算法:传统思路有谱减法、维纳滤波方法、MMSE等非监督算法,这里的主要挑战是平衡去噪程度与信号扭曲。其中维纳滤波算法是比较著名的去噪算法,主要思路是将对含噪嗓音线性滤波之后的结果与纯净语音进行比较,而且用最小均方误差进行衡量。具体的求解过程可以参考 https://web.stanford.edu/class/archive/ee/ee264/ee264.1072/mylecture12.pdf以及https://blog.csdn.net/kaixinshier/article/details/72477679?locationNum=5&fps=1。 基于深度学习的方法中主要用全连接层、卷积层以及循环层三种网络。全连接层将已提取的特征送入至下一层以获得更抽象的特征。卷积层经常用在视觉应用中,核心思想是局部感受野和权重共享,当然也可将这样的方法应用至语音信号中,将时频图用于CNN,或者ICASSP会议中利用一维卷积方法来提取语音信号的基频。循环层主要用于时序信号,可以将前面时刻的信号传入到本时刻中,常用的网络有rnn和lstm。
后端处理算法:最常见的GMM-HMM方法,属于产生式的模型,但是其中包括了多种假设条件,并不一定与实际相符。近年来很多基于深度学习的方法探讨了其对噪声自适应处理的能力。这里简单介绍GMM-HMM模型:GMM描述的是从音素隐状态到音频之间的观测概率,而HMM则描述的是音素状态之间的转移概率。这个模型描述的是声学模型,通过语音信号进行训练,并利用字典查询由音素组成的单词。在ASR中还需要语音模型,这是描述单词与单词之间、语法等关系的模型,主要利用的是文本进行训练的。关于该模型的介绍参见 https://blog.csdn.net/davidie/article/details/46929269。
第二节 基于深度学习的方法
- 前端处理方法
此类方法中采用的是监督学习的思路,在时域、幅度谱、功率谱、梅尔频谱、对数梅尔频谱以及倒谱等domain训练从含噪嗓音到纯净嗓音的映射函数。经常采用的损失函数就是最小均方误差。
方法1:栈式自动编码器,可以采用autoencoder来训练模型,使得输出和输入相同,这样训练得到的网络结构对测试样本就可以进行降噪。另外,采用可以深度RBM来进行,首先逐层进行pre-trainning,然后进行fine-tuning。最后,已根据不同的频谱进行加权的学习。
方法2:基于RNN或者LSTM的算法,这样可以考虑上下文信息。
方法3:利用cnn方法或者waveNet的网络,后者可以直接利用时域信号,并不舍弃对应的相位信息。这一方法的原理是:
方法4:生产对抗网络,在生成模型中实现将含噪嗓音变换为纯净嗓音,然后与真正的纯净嗓音分别作为真假样本输入至判别模型。这一方法可以的性能往往比较好
讨论:采用计算机视觉相关的方法中,相邻像素之间具有较大的相似性。但是对于声谱图而言,其不同谐波之间的相关性可能更强,但一般的网络却没有将这样的先验信息考虑在内。
- 后端处理方法

浙公网安备 33010602011771号