论文翻译：2018_CRN_A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement

论文地址：用于实时语音增强的卷积递归神经网络

代码地址：https://github.com/JupiterEthan/CRN-causal

作者主页：https://jupiterethan.github.io/

引用格式：Tan K, Wang D L. A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement[C]//Interspeech. 2018: 3229-3233.

摘要

　　许多现实世界中的语音增强应用，如助听器和人工耳蜗，都需要实时处理，没有延迟或低延迟。在本文中，我们提出了一种新型的卷积递归网络（convolutional recurrent network，CRN）来解决实时单声道语音增强问题。我们将卷积编码解码器（convolutional encoder decoder，CED）和长短时记忆（LSTM）纳入CRN架构，搭建一个自然适合实时处理的因果系统。此外，所提出的模型与噪声和说话人无关，即噪声类型和说话人在训练和测试中可以不同。我们的实验表明，与现有的基于LSTM的模型相比，CRN所带来的客观可懂性和感知质量始终更好。此外，CRN的可训练参数要少得多。

关键词：噪声和说话人无关的语音增强，实时应用，卷积编码器-解码器，长短期记忆，卷积递归网络

1 引言

　　语音分离旨在将目标语音从背景干扰中分离出来，背景干扰可能包括非语音噪声、干扰语音和房间混响[1]。语音增强是指语音和非语音噪声的分离。它在现实世界中有各种应用，如强大的自动语音识别和移动语音通信。对于许多这样的应用，需要实时处理。换句话说，语音增强是以低计算复杂性进行的，提供近乎即时的输出。

在这项研究中，我们专注于可以在实时应用中进行的单声道（单麦克风）语音增强。例如，在数字助听器中，已经发现低至3毫秒的延迟对听众来说是明显的，而超过10毫秒的延迟是令人讨厌的[2]。对于这样的应用，通常需要因果语音增强系统，其中不允许有未来信息(因果系统只能使用过去的信息，不能使用未来的信息)。

受计算听觉场景分析（CASA）中时频（T-F）掩码概念的启发[3]，近年来，语音分离被表述为监督学习，采用深度神经网络（DNN）来学习噪声声学特征到T-F掩码的映射[4]。理想的二进制掩码，将T-F单元分类为以语音为主或以噪声为主，是监督式语音分离中使用的第一个训练目标。最近的训练目标包括理想比率掩码[5]和与目标语音的幅度或功率谱对应的基于映射的目标[6][7]。在本研究中，我们使用目标语音的幅值谱作为训练目标。

对于监督下的语音增强，噪声泛化和说话人泛化都是至关重要的。处理噪声泛化的一个简单而有效的方法是用不同的噪声类型进行训练[8]。类似地，为了解决说话人的泛化问题，在训练集中包括大量的说话人。然而，人们发现，前馈DNN在有许多训练说话人的情况下，无法跟踪目标说话人[9] [10] [11]。通常情况下，DNN从帧周围的一个小的上下文窗口独立地预测每个时间帧的标签。一种解释是，这种DNN不能利用长期的语境，而这对于跟踪目标说话人是至关重要的。最近的研究[9][10]表明，为了利用长期语音，将语音分离表述为序列到序列的映射会更好。

在这样的表述下，递归神经网络（RNN）和卷积神经网络（CNN）已经被用于噪声和说话人无关的语音增强，其中噪声类型和说话人在训练和测试中可能是不同的。Chen等人[10]提出了一个具有四个隐藏LSTM层的RNN，以处理与噪声无关的模型的说话人泛化问题。他们的实验结果表明，LSTM模型对未经训练的说话人有很好的泛化作用，并且在短时客观可懂度（STOI）方面大大超过了基于DNN的模型[12]。最近的一项研究[13]开发了一个基于扩张卷积的门控残差网络（GRN）。与[10]中的LSTM模型相比，GRN表现出更高的参数效率和更好的泛化能力，适用于不同信噪比水平下的未经训练的说话者。另一方面，GRN需要大量的未来信息用于掩码估计或每个时间段的频谱映射。因此，它不能用于实时语音增强。

在最近关于CRN的工作[14][15]的启发下，我们开发了一个新颖的CRN架构，用于实时的噪声和说话人无关的语音增强。CRN包含了一个卷积编码器-解码器和长短期记忆。我们发现，与[10]中的LSTM模型相比，我们提出的的CRN得到了更好的客观语音可懂度和质量。

本文的其余部分组织如下。我们在第2节中对我们提出的模型进行了详细描述。实验设置和结果在第3节中介绍。我们在第4节中总结了本文。

2 系统描述

2.1 带有因果卷积的编码器-解码器

　　Badrinarayanan等人首先提出了一个用于像素化图像标签的卷积编码器-解码器网络[16]。它包括一个卷积编码器和一个相应的解码器，该解码器被送入一个softmax分类层。编码器是卷积层和池化层的堆叠，用于从原始输入图像中提取高级特征。解码器与编码器的结构基本相同，顺序相反，在编码器的输出端将低分辨率的特征图映射为完整输入图像尺寸的特征图。对称的编码器-解码器结构确保输出与输入具有相同的形状。有了这样一个吸引人的属性，编码器-解码器架构自然适合任何像素级的密集预测任务，其目的是为输入图像的每个像素预测一个标签。

图1：因果循环的一个例子。卷积输出不依赖于未来的输入

　　对于语音增强，一种方法是采用CED从噪声语音的幅度谱图映射到干净语音的幅度谱图，其中幅度谱图被简单地视为图像。据我们所知，Park等人[17]首次将CED用于语音增强。他们提出了一个冗余的CED网络（R-CED），它由卷积、批量归一化（BN）[18]和ReLU激活[19]层的重复组成。R-CED架构还加入了跳过连接以促进优化，它将编码器中的每一层连接到解码器中的相应层。

在我们提出的网络中，编码器包括五个卷积层，而解码器有五个反卷积层。我们将指数线性单元（ELU）[20]应用于除输出层之外的所有卷积层和去卷积层。与ReLUs相比，ELU已被证明能带来更快的收敛和更好的泛化。在输出层，我们利用softplus激活[19]，它是ReLU函数的平滑近似，可以约束网络输出始终为正。此外，我们在每次卷积（或解卷积）后和激活前采用批量归一化。核的数量保持对称：核的数量在编码器中逐渐增加，而在解码器中逐渐减少。为了利用沿频率方向更大的上下文，我们对所有卷积（或反卷积）层沿频率维度应用2的步幅。换句话说，我们在编码器中逐层将特征图的频率维度大小减半，在解码器中逐层将其加倍，而我们不改变特征图的时间维度大小。为了改善整个网络的信息和梯度流动，我们利用跳过连接，将每个编码器层的输出与每个解码器层的输入连接起来。

为了得到一个用于实时语音增强的因果系统，我们在编码器-解码器结构上施加了因果卷积。图1描述了一个因果卷积的例子。请注意，输入可以被视为一个特征向量的序列，而图1中只说明了时间维度。在因果卷积中，输出不依赖于未来的输入。使用因果卷积而不是非因果卷积，编码器-解码器架构将导致一个因果系统。注意，我们可以很容易地将因果反卷积应用到解码器，因为反卷积本质上是一个卷积操作。

2.2 利用LSTM进行时间建模

　　为了跟踪目标说话人，利用长期背景可能很重要，而上述卷积编码器-解码器无法利用这些背景。LSTM[21]是RNN的一种特殊类型，它包含一个记忆单元，在声学建模和视频分类等各种应用中已经成功地进行了时间建模。为了说明语音的时间动态，我们在编码器和解码器之间插入两个堆叠的LSTM层。在这项研究中，我们使用由以下公式定义的LSTM。

$$公式1：i_{t} =\sigma(W_{i i} x_{t}+b_{i i}+W_{h i} h_{t-1}+b_{h i})$$

$$公式2：f_{t} =\sigma(W_{i f} x_{t}+b_{i f}+W_{h f} h_{t-1}+b_{h f})$$

$$公式3：g_{t} =\tanh (W_{i g} x_{t}+b_{i g}+W_{h g} h_{t-1}+b_{h g})$$

$$公式4：o_{t} =\sigma(W_{i o} x_{t}+b_{i o}+W_{h o} h_{t-1}+b_{h o})$$

$$公式5：c_{t} =f_{t} \odot c_{t-1}+i_{t} \odot g_{t}$$

$$公式6：h_{t} =o_{t} \odot \tanh (c_{t})$$

其中$x_t$、$g_t$、$c_t$和$h_t$分别代表时间t的输入、区块输入、记忆单元和隐藏激活。W’s和b’s分别表示权重和偏置。$\sigma $代表sigmoid非线性，$\bigodot $代表元素相乘。

为了适应LSTM所要求的输入形状，我们将编码器输出的频率维度和深度维度扁平化，在将其送入LSTM层之前产生一个特征向量序列。随后，LSTM层的输出序列被重新塑造，以适应解码器。值得注意的是，LSTM层的加入并没有改变系统的因果关系。

2.3 网络结构

　　在这项研究中，我们使用161维的短时傅里叶变换（STFT）噪声语音的幅度频谱作为输入特征，并将纯净语音作为训练目标。我们提出的CRN如图2所示，其中网络输入被编码为高维深度特征，然后深度特征向量的序列被两个LSTM层建模。随后，LSTM层的输出序列被解码器转换回原始输入形状。提出的CRN得益于CNN的特征提取能力和RNN的时间建模能力，通过将这两种拓扑结构结合在一起。

图2 我们提议的CRN的网络架构

表1提供了我们建议的网络结构的更详细描述。每层的输入大小和输出大小是以（feature Maps，time Steps，frequency Channels）的格式指定的。层的超参数以（kernel Size, strides, out Channels）格式给出。对于所有的卷积和解卷积，我们在时间方向上应用零填充，但在频率方向上不应用。为了进行因果卷积，我们使用2×3（时间×频率）的核大小。请注意，每个解码器层的特征图的数量因跳跃连接(cat)而翻倍。

表1：我们提议的CRN的架构。这里T表示STFT幅度谱中的时间帧数

2.4 LSTM基线

　　在我们的实验中，我们建立了两个LSTM基线进行比较。在第一个LSTM模型中，采用11帧的特征窗口（10个过去帧和1个当前帧）来估计目标的一帧（见图3）。换句话说，11帧的特征向量被串联成一个长向量，作为每个时间步长的网络输入。然而，在第二个LSTM模型中，没有利用特征窗口。我们把第一个LSTM模型称为LSTM-1，第二个称为LSTM-2。从输入层到输出层，LSTM-1分别有11×161、1024、1024、1024和161个单元；LSTM-2分别有161、1024、1024、1024、1024和161个单元。两个基线都不使用未来信息，相当于因果系统。

3 实验

3.1 实验步骤

　　在我们的实验中，我们在WSJ0 SI84训练集[22]上评估模型，包括来自83个说话人（42个男性和41个女性）的7138句话。在这些说话者中，有6名说话者（3名男性和3名女性）被视为未经训练的说话者。因此，我们用剩下的77个说话者来训练模型。为了获得不受噪音影响的模型，我们从一个声音效果库（可在https://www.sound-ideas.com）中使用10 000个噪音进行训练，持续时间约为126小时。对于测试，我们使用Auditec CD（可在http://www.auditec.com）中的两个具有挑战性的噪音（咿呀和食堂）。

图3：具有11帧(10个过去帧和1个当前帧)特征窗口的LSTM基线。在每个时间步，11个输入帧连接到一个特征向量

　　我们创建了一个包括320 000个混合物的训练集，总时长约为500小时。具体来说，我们将一个随机选择的训练语料与10 000个训练噪声中的一个随机切口混合，信噪比（SNR）从{-5, -4, -3, -2, -1, 0}dB中随机选择。为了研究模型的说话人通用性，我们用6个训练过的说话人（3个男性和3个女性）和6个未训练过的说话人分别为每个噪音创建两个测试集。一个测试集包括150个混合物，由6个训练有素的说话人的25×6个语料创建，而另一个包括150个混合物，由6个未训练过的说话人的25×6个语料创建。请注意，所有的测试语料都被排除在训练集之外。我们对测试集使用两种信噪比，即-5和-2dB。所有信号的采样频率为16kHz。
这些模型是用Adam优化器[23]训练的。我们设定学习率为0.0002。平均平方误差（MSE）作为目标函数。我们使用16个mini-batch的大小来训练模型。所有的训练样本都填充了0，使其具有与最长样本相同的时间步长。通过交叉验证选择最佳模型。

3.2 实验结果

　　在本研究中，我们使用STOI和语音质量感知评价（PESQ）[24]作为评价指标。表2和表3分别列出了受过训练的说话人和未受过训练的说话人的未处理和已处理信号的STOI和PESQ分数。在每一种情况下，最好的结果都用黑体字的数字来表示。如表2和表3所示，LSTM-1和LSTM-2对受训者和未受训者的STOI和PESQ得分相似，这意味着在LSTM-1中使用特征窗并不能提高性能。另一方面，我们提出的CRN在这两个指标上都一直优于LSTM基线。例如，在信噪比为-5 dB时，CRN比LSTM模型提高了约2%的STOI和约0.1的PESQ。对比表2和表3的结果，我们可以发现，CRN对未经训练的说话者有很好的概括作用。在最具挑战性的情况下，未经训练的说话人的语料与两个未经训练的噪音在-5dB的位置混合，CRN比未经处理的混合物产生18.56%的STOI改进和0.55的PESQ改进。

图 4：LSTM-1、LSTM-2 和 CRN 在训练集和测试集上的训练时期的均方误差

所有模型都使用由六个未经训练的说话者组成的测试集对未经训练的胡言乱语进行评估

　　CRN利用了批量归一化的优势，它可以很容易地用于卷积操作，以加速训练和提高性能。图4比较了不同模型在训练历时中的训练和测试MSEs，其中模型是在6个未训练的说话人的测试集上评估的。我们观察到，与两个LSTM模型相比，CRN收敛得更快，并取得更低的MSEs。此外，CRN的可训练参数比LSTM模型少，如图5所示。这主要是由于在卷积中使用了共享权重。由于参数效率较高，CRN比LSTM更容易训练。
此外，CRN中的因果卷积能捕捉到输入STFT幅度谱中的局部空间模式，而不使用未来信息。相比之下，LSTM模型将每个输入帧作为一个扁平化的特征向量，不能充分地利用STFT幅度谱中的T-F结构。另一方面，CRN中的LSTM层对潜在空间中的时间依赖性进行建模，这对独立于说话人的语音增强中的说话人特征非常重要。

4 结论

　　在这项研究中，我们提出了一个卷积递归网络来处理实时应用中与噪音和说话人无关的语音增强。所提出的模型导致了一个因果语音增强系统，其中没有利用未来信息。评估结果表明，就STOI和PESQ分数而言，拟议的CRN在训练过的和未训练过的说话者方面都一直优于两个强LSTM基线。此外，我们发现，CRN的可训练参数比LSTM少。我们相信所提出的模型代表了现实世界应用中的一种强大的语音增强方法，其中理想的属性通常包括在线操作、单通道操作以及与噪音和说话人无关的模型。

参考文献

[1] D. L. Wang and J. Chen, Supervised speech separation based on deep learning: an overview, arXiv preprint arXiv:1708.07524, 2017.

[2] J. Agnew and J. M. Thornton, Just noticeable and objectionable group delays in digital hearing aids, Journal of the American Academy of Audiology, vol. 11, no. 6, pp. 330 336, 2000.

[3] D. L. Wang and G. J. Brown, Eds. , Computational auditory scene analysis: Principles, algorithms, and applications. Wiley-IEEE press, 2006.

[4] Y. Wang and D. L. Wang, Towards scaling up classificationbased speech separation, IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 7, pp. 1381 1390, 2013.

[5] Y. Wang, A. Narayanan, and D. L. Wang, On training targets for supervised speech separation, IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), vol. 22, no. 12, pp. 1849 1858, 2014.

[6] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, An experimental study on speech enhancement based on deep neural networks, IEEE Signal processing letters, vol. 21, no. 1, pp. 65 68, 2014.

[7] , A regression approach to speech enhancement based on deep neural networks, IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), vol. 23, no. 1, pp. 7 19, 2015.

[8] J. Chen, Y. Wang, S. E. Yoho, D. L. Wang, and E. W. Healy, Large-scale training to increase speech intelligibility for hearingimpaired listeners in novel noises, The Journal of the Acoustical Society of America, vol. 139, no. 5, pp. 2604 2612, 2016.

[9] J. Chen and D. L. Wang, Long short-term memory for speaker generalization in supervised speech separation, Proceedings of Interspeech, pp. 3314 3318, 2016.

[10] , Long short-term memory for speaker generalization in supervised speech separation, The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705 4714, 2017.

[11] M. Kolbæk, Z.-H. Tan, and J. Jensen, Speech intelligibility potential of general and specialized deep neural network based speech enhancement systems, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 1, pp. 153 167, 2017.

[12] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, An algorithm for intelligibility prediction of time frequency weighted noisy speech, IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 7, pp. 2125 2136, 2011.

[13] K. Tan, J. Chen, and D. L. Wang, Gated residual networks with dilated convolutions for supervised speech separation, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, to appear.

[14] Z. Zhang, Z. Sun, J. Liu, J. Chen, Z. Huo, and X. Zhang, Deep recurrent convolutional neural network: Improving performance for speech recognition, arXiv preprint arXiv:1611.07174, 2016.

[15] G. Naithani, T. Barker, G. Parascandolo, L. Bramsl, N. H. Pontoppidan, and T. Virtanen, Low latency sound source separation using convolutional recurrent neural networks, in 2017 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2017, pp. 71 75.

[16] V. Badrinarayanan, A. Handa, and R. Cipolla, Segnet: A deep convolutional encoder-decoder architecture for robust semantic pixel-wise labelling, arXiv preprint arXiv:1505.07293, 2015.

[17] S. R. Park and J. Lee, A fully convolutional neural network for speech enhancement, arXiv preprint arXiv:1609.07132, 2016.

[18] S. Ioffe and C. Szegedy, Batch normalization: Accelerating deep network training by reducing internal covariate shift, in International conference on machine learning, 2015, pp. 448 456.

[19] X. Glorot, A. Bordes, and Y. Bengio, Deep sparse rectifier neural networks, in Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, 2011, pp. 315 323.

[20] D.-A. Clevert, T. Unterthiner, and S. Hochreiter, Fast and accurate deep network learning by exponential linear units (elus), arXiv preprint arXiv:1511.07289, 2015.

[21] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural computation, vol. 9, no. 8, pp. 1735 1780, 1997.

[22] D. B. Paul and J. M. Baker, The design for the wall street journalbased csr corpus, in Proceedings of the workshop on Speech and Natural Language. Association for Computational Linguistics, 1992, pp. 357 362.

[23] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014.

[24] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, Perceptual evaluation of speech quality (pesq)-a new method for speech quality assessment of telephone networks and codecs, in 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2. IEEE, 2001, pp. 749 752.

posted @ 2021-12-08 18:31 凌逆战阅读(4872) 评论(2) 收藏举报

刷新页面返回顶部