论文翻译：2022_Time-Frequency Attention for Monaural Speech Enhancement

论文地址：单耳语音增强的时频注意

引用格式：Zhang Q, Song Q, Ni Z, et al. Time-Frequency Attention for Monaural Speech Enhancement[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 7852-7856.

摘要

　　大多数语音增强研究通常没有明确考虑语音在时频(t -f)表示中的能量分布，这对于准确预测掩模或频谱具有重要意义。在本文中，我们提出了一个简单而有效的T-F注意(TFA)模块，该模块产生了一个二维attention map，为T-F表示的频谱分量提供了差异化的权重。为了验证我们提出的TFA模块的有效性，我们使用残差时间卷积网络(ResTCN)作为骨干网络，并在两个常用的训练目标上进行了广泛的实验。我们的实验表明，应用我们的TFA模块在五个客观评价指标方面显著提高性能，而参数(2.72KB)开销可以忽略不计。评估结果表明，提出的带TFA模块的ResTCN (ResTCN+TFA)始终在很大程度上优于其他基线。

索引术语：语音增强，时频注意，能量分布，时间卷积网络(temporal convolutional network)

1 引用

　　语音增强是指在存在背景噪声的情况下对语音信号进行增强。它是许多语音处理应用的基本组成部分，如自动语音识别、说话人识别、助听器和电话会议。基于统计模型的语音增强[1-3]已经被广泛研究了几十年，该方法对平稳噪声有很好的增强效果，但对非平稳噪声[4]的增强效果不佳。

　　基于监督深度学习的语音增强技术已经取得了显著的进展。根据对输入信号的处理方式，现有方法可以分为两类。时域方法直接对语音波形进行语音增强，其中DNN被优化以学习从带噪语音波形到纯净语音波形的映射[5,6]。时频域(T-F)域方法通常训练DNN预测纯净语音或T-F掩码的频谱表示。目前最流行的T-F掩模包括理想比例掩模(IRM)[7]、相敏掩模(PSM)[8]和复数IRM (cIRM)[9]。在本研究中，我们采用IRM和PSM进行语音增强。

　　在早期的研究中，多层感知器(MLPs)是应用最广泛的架构，但它们在捕获长期依赖方面存在局限性。为了克服这一局限性，Chen等人[10]采用四层长短期记忆(LSTM)的递归神经网络(RNN)进行语音增强，明显优于MLPs。然而，LSTM网络的训练过程缓慢而复杂，并且需要大量的参数，这严重限制了它的适用性。最近，利用扩张卷积和剩余跳跃连接的剩余时间卷积网络(ResTCNs)[11]在建模长期依赖关系方面表现出了令人印象深刻的性能，并在语音增强方面取得了相当大的成功[12-14]。近年来，基于自注意的Transformer[15]模型已成功地应用于语音增强和许多其他与语音处理相关的任务，因为它们具有捕获远程依赖关系的能力。

　　现有的模型主要关注如何有效地对长程依赖进行建模，而一般忽略了T-F域的能量分布特征，而T-F表示对语音增强同样重要。注意力机制[16 18]已被充分研究，以了解什么对学习任务是重要的。受注意力的启发，我们提出了一种新的结构单元，称为T-F注意力(TFA)模块，用于模拟语音的能量分布。具体而言，TFA模块由两个平行的注意分支组成，即时间维度注意力(TA)和频率维度注意力(FA)[19]，它们产生两个1-D attention map，分别指导模型关注何处(哪个时间帧)和什么(哪个频率通道)。结合TA和FA模块生成二维注意力图，使模型能够捕捉T-F域的语音分布。为了验证这一想法，我们使用最新的ResTCN架构作为骨干网络，并采用两个代表性的训练目标(将在第2节中讨论)进行广泛的实验。

　　本文的其余部分组织如下。第二节介绍了T-F域语音增强技术。在第3节中，我们描述了拟议的网络。第4节介绍了实验装置和评估结果。第5部分对本文进行了总结。

2 问题公式化

　　在短时傅里叶变换(STFT)域中，带噪语音可以被建模为纯净语音和加性噪声的组合

$$公式1：X[l,k]=S[l,k]+D[l,k]$$

其中$X[l,k]$， $S[l, k]$和$D[l, k]$分别表示带噪语音、纯净语音和噪声的STFT系数。对于有监督的语音增强，通常训练DNN来预测预先设计的掩膜。然后应用该结果重建纯净语音。为了验证我们提出的TFA模块的有效性，我们采用两个广泛使用的掩膜进行广泛的增强实验。详情如下：

　　理想比值掩模( ideal ratio mask，IRM)[7]的定义为：

$$公式2：\operatorname{IRM}[l, k]=\sqrt{\frac{|S[l, k]|^{2}}{|S[l, k]|^{2}+|D[l, k]|^{2}}}$$

式中$|S[l, k]|$和$|D[l, k]|$分别为纯净语音和噪声的频谱。

　　相敏掩模(phase-sensitive mask，PSM)[8]是根据纯净语音和带噪语音的STFT幅值定义的。引入一个相位误差项来补偿对带噪声语音相位的利用

$$公式3：\operatorname{PSM}[l, k]=\frac{|S[l, k]|}{|X[l, k]|} \cos \left[\theta_{S[l, k]-X[l, k]}\right]$$

式中$\theta_{S[l,k]-X[l,k]}$表示纯净语音与带噪语音之间的相位差。PSM被截断到0到1之间，以拟合sigmoid激活函数的输出范围。

3 TF-Attention的语音增强

3.1 网络结构

　　图1(a)展示了ResTCN骨干网[12]的结构，它以带噪语音$|X|]\in R^{L*K}$的STFT幅度谱作为输入。输出层为全连接层，具有sigmoidal激活函数，输出掩码 (IRM或PSM)。图1(b)显示了我们如何将TFA模块插入到ResTCN块中。ResTCN块(如图1 (a)的黑色虚线框所示)包含三个1-D因果扩张卷积单元。每个卷积单元中的参数表示为kernel size、filter nums和dilation rate。循环dilation rate为块索引$b=\{1,2,3,...B\}$增大：$d=2^{(b-1mod(log_2(D)+1))}$，其中mod为取模运算，D = 16为最大dilation rate。每个卷积单元都采用预激活设计，其中输入通过frame-wise alization (LN)和ReLU激活函数进行预激活。

图1所示 (a) ResTCN骨干网和(b)我们提出的带有TFA模块的ResTCN块

3.2 TF注意力模块

图2所示我们提出的TFA模块示意图，其中TA和FA模块分别显示在黑色和蓝色的点框中

AvgPool和Conv1D分别表示平均池化和1-D卷积操作。$\otimes $和$\odot $分别表示矩阵乘法和元素点乘

　　在图2中，我们说明了TFA模块。我们将变换后的T-F表示$Y\in R^{L*d_{model}}$作为L帧和$d_{model}$频率通道的输入。TFA利用两个分支并行生成1- d frequency-dimension attention map $F_A\in R^{1*d_{model}}$和1- d time-frame attention map $T_A\in R^{L*1}$，再结合矩阵乘法得到最终的2-D T-F attention map $TF_A\in R^{L*d_{model}}$。改进后的输出写为

$$公式4：\tilde{\mathbf{Y}}=\mathbf{Y} \odot \mathbf{T F}_{A}$$

其中$\odot $表示逐元素乘积。下面给出了提议的 TFA 的详细描述。

　　语音在时间和频率维度上的能量分布是生成准确attention map的关键。每个Attention分支分两步生成attention map：全局信息聚合和Attention生成。具体来说，FA模块在给定的输入Y上沿时间维度进行全局平均池化，并生成frequency-wise统计$Z_F\in R^{1*d_{model}}$，公式为：

$$公式5：\mathbf{Z}_{\mathbf{F}}(k)=\frac{1}{L} \sum_{l=1}^{L} \mathbf{Y}(l, k)$$

其中$Z^F(k)$是$Z_F$的第k个元素，同样的，TA模块沿着输入X的频率维度进行全局平均池化(就是求平均)，并生成一个基于time-frame-wise的统计$Z_T\in R^{L*1}$。$Z_T$的第$l$个元素可以写成：

$$公式6：\mathbf{Z}_{\mathbf{T}}(l)=\frac{1}{d_{\text {model }}} \sum_{k=1}^{d_{\text {model }}} \mathbf{Y}(l, k)$$

　　两个统计$Z_T$和$Z_F$分别可以看作是语音能量在时间维度和频率维度上的分布。为了充分利用这两种描述符产生准确的Attention权值，我们堆叠两个一维卷积层$k_{tfa}=17$作为非线性变换函数。FA模块的Attention具体计算为

$$公式7：\mathbf{F}_{\mathbf{A}}=\sigma\left(f_{2}^{F A}\left(\delta\left(f_{1}^{F A}\left(\mathbf{Z}_{\mathbf{F}}\right)\right)\right)\right)$$

式中$f$为1-D卷积运算，$\delta$和$ \sigma $分别为ReLU和sigmoid激活函数。在TA模块中采用相同的计算过程生成Attention map：

$$公式8：\mathbf{T}_{\mathbf{A}}=\sigma\left(f_{2}^{T A}\left(\delta\left(f_{1}^{T A}\left(\mathbf{Z}_{\mathbf{T}}\right)\right)\right)\right)$$

然后，将从两个注意分支获得的Attention map与张量乘法相结合，产生最终的2-D Attention map TFA

$$公式9：\mathbf{T F}_{\mathbf{A}}=\mathbf{T}_{\mathbf{A}} \otimes \mathbf{F}_{\mathbf{A}}$$

其中$\otimes $表示张量乘法运算。最终二维 Attention map TFA的计算公式为:

$$公式10：\mathbf{T F}_{\mathbf{A}}=\mathbf{T}_{\mathbf{A}}(l)*\mathbf{F}_{\mathbf{A}}(l)$$

其中$T_A(l)$和$F_A(k)$分别表示$T_A$的第$l$个元素，和$F_A$的第k个元素。

4 实验

4.1 数据集和特征提取

　　我们使用Librispeech[20]语料库中的train-clean-100作为训练集中的纯净语音，包括251个说话人的28539个语音。训练集中使用的噪声来自以下数据集：QUT-NOISE数据集[21]，非语音数据集[22]，环境背景噪声数据集[23,24]，RSG-10数据集[25](语音babble, F16，和工厂焊接除外进行测试)，Urban Sound数据集[26](街头音乐记录no.[26])。26 270被排除用于测试)、MUSAN语料库[27]的噪声集和彩色噪声(α值从2到2，以0.25为增量)。总共有6 909个噪音。对于验证集，我们随机选择1 000条纯净的语音和噪音录音(不替换)，并将其从前述的纯净语音和噪音集中移除。每个纯净语音与一个噪声记录的随机部分混合，随机信噪比在-10 dB到20 dB之间，以1dB的增量产生1 000个噪声语音作为验证集。对于测试集，我们使用从RSG-10数据集[25]和Urban Sound数据集[26]中排除的四种真实世界的噪音记录(嘈杂声、F16、工厂焊接和街头音乐)。从Librispeech语料库[20]的test-clean-100中随机选择10条纯净的语音录音(没有替换)，对每一条录音进行以下信噪比级别的混合：{-5 dB, 0 dB, 5 dB, 10 dB, 15 dB}。这将生成一个包含200段带噪声语音录音的测试集。所有纯净的语音和噪声录音都是单通道的，采样频率为16khz。

　　采用A square-root-Hann(平方根-Hann)窗函数进行分析和合成，帧长为32 ms，帧移为16 ms。带噪语音的257频点作为输入，该幅谱包含直流频率分量和奈奎斯特频率分量。

4.2 实验步骤

　　使用ResTCN模型作为基准骨干来验证我们的TFA模块的有效性。此外，我们还采用了两个最新的模型作为基线，即具有自我注意的ResTCN (ResTCN+SA)[28]和多头自我注意网络(MHANet)[29]。ResTCN基线使用以下参数，如[12]，k = 3, $d_{model}$= 256, $d_f$ = 64, B = 40。ResTCN+SA[28]采用多头自我注意模块产生动态表示，然后采用ResTCN模型(采用B = 40个堆叠基线的ResTCN块构建ResTCN模型进行公平比较)进行非线性映射。MHANet模型[29]使用5层堆叠的Transformer编码器[15]进行语音增强，参数设置如[29]。为了验证TFA模块中FA和TA成分的有效性，我们进行了消融研究，其中使用FA和TA的ResTCN(称为ResTCN+FA和ResTCN+TA)被评估。

　　训练方法：每个训练迭代使用10个mini batch的带噪语音。带噪语音信号的创建方法如下：为mini batch选择的每个纯净语音与随机选择的噪声的随机部分混合，信噪比随机选择(-10 dB到20 dB，以1 dB的增量)。以目标掩模与估计掩模之间的均方误差(MSE)为目标函数。对于ResTCN、ResTCN+SA和提出的模型，使用默认超参数[30]和学习率0.001的Adam优化器进行梯度下降优化。由于MHANet难以训练[29,31]，我们采用[29]中的训练策略。梯度裁剪应用于所有模型，其中梯度裁剪在[-1,1]之间。

4.3 训练和验证误差

　　图3-4给出了每个模型对150 epoch训练产生的训练和验证误差曲线。可以看到，与ResTCN相比，带有我们提出的TFA的ResTCN (ResTCN+TFA)产生了显著较低的训练和验证错误，这证实了TFA模块的有效性。同时，与ResTCN+SA和MHANet相比，ResTCN+TFA的训练和验证误差最低，具有明显的优越性。在三条基线中，MHANet性能最好，ResTCN+SA优于ResTCN。此外，通过对ResTCN、ResTCN+FA和ResTCN+TA的比较，验证了TA和FA模块的有效性。

图3所示。训练误差(a)和验证误差(b)在IRM训练目标上的曲线

图4所示训练误差(a)和验证误差(b)在PSM训练目标上的曲线

4.4 结果和讨论

　　本研究采用5个指标广泛评估增强性能，包括宽带语音质量感知评价(PESQ)[32]、扩展短时间目标可理解性(esti)[33]和3个复合指标[34]，即信号失真的平均意见评分(MOS)预测指标(CSIG)、背景噪声入侵(CBAK)和整体信号质量(COVL)。

　　表1和2分别给出了每个信噪比水平(横跨四个噪声源)的平均PESQ和esti得分。评估结果表明，我们提出的ResTCN+TFA在IRM和PSM上的PESQ和ESTOI均比ResTCN取得了显著的改进，参数开销可以忽略不计，证明了TFA模块的有效性。例如，在5 dB SNR的情况下，带IRM的ResTCN+TFA在PESQ上提高了基线ResTCN 0.18，在ESTOI上提高了4.94%。与MHANet和ResTCN+SA相比，ResTCN+TFA在所有情况下均表现出最佳性能，表现出明显的性能优势。在三条基线中，总体而言，绩效排名依次为MHANet >ResTCN + SA>ResTCN。同时，ResTCN+FA和ResTCN+TA也在ResTCN的基础上做了较大的改进，这也验证了FA和TA模块的有效性。表3列出了所有测试条件下CSIG、CBAK和COVL的平均得分。表1和表2中也观察到了类似的性能趋势。同样，我们提出的ResTCN+TFA在三个指标上明显优于ResTCN，并且在所有模型中表现最好。平均而言，与ResTCN+TFA和PSM相比，CSIG提高了0.21,CBAK提高了0.12,COVL提高了0.18。与MHANet相比，采用PSM的ResTCN+TFA使CSIG提高0.12,CBAK提高0.08,COVL提高0.11。

5 结论

　　在本研究中，我们提出了一种轻量级和灵活的注意单元，称为TFA模块，旨在模拟T-F表示中语音的能量分布。在两个训练目标(IRM和PSM)上以ResTCN为骨干的大量实验证明了所提出的TFA模块的有效性。在所有的模型中，我们提出的ResTCN+TFA始终表现最佳，并在所有情况下显著优于其他基线。未来的研究工作包括调查TFA在更多架构(例如最近的Transformer)和更多训练目标上的有效性。

参考文献

[1] P. C. Loizou, Speech enhancement: theory and practice. CRC press, 2013.

[2] Q. Zhang, M. Wang, Y. Lu, L. Zhang, and M. Idrees, A novel fast nonstationary noise tracking approach based on mmse spectral power estimator, Digital Signal Processing, vol. 88, pp. 41 52, 2019.

[3] Y. Ephraim and D. Malah, Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE Trans. Acoust. , Speech, Signal Process. , vol. ASSP-32, no. 6, pp. 1109 1121, Dec. 1984.

[4] Q. Zhang, M. Wang, Y. Lu, M. Idrees, and L. Zhang, Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging, IEEE Access, vol. 7, pp. 80 985 80 999, 2019.

[5] S. Pascual, A. Bonafonte, and J. Serr`a, SEGAN: Speech enhancement generative adversarial network, Proc. INTERSPEECH, pp. 3642 3646, 2017.

[6] Y. Luo and N. Mesgarani, Conv-tasnet: Surpassing ideal time frequency magnitude masking for speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 27, no. 8, pp. 1256 1266, 2019.

[7] Y. Wang, A. Narayanan, and D. Wang, On training targets for supervised speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 22, no. 12, pp. 1849 1858, 2014.

[8] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks, in Proc. ICASSP, 2015, pp. 708 712.

[9] D. S. Williamson, Y. Wang, and D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 24, no. 3, pp. 483 492, 2015.

[10] J. Chen and D. Wang, Long short-term memory for speaker generalization in supervised speech separation, The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705 4714, 2017.

[11] S. Bai, J. Z. Kolter, and V. Koltun, An empirical evaluation of generic convolutional and recurrent networks for sequence modeling, arXiv preprint arXiv:1803.01271, 2018.

[12] Q. Zhang, A. Nicolson, M. Wang, K. K. Paliwal, and C. Wang, DeepMMSE: A deep learning approach to mmse-based noise power spectral density estimation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 28, pp. 1404 1415, 2020.

[13] K. Tan, J. Chen, and D. Wang, Gated residual networks with dilated convolutions for monaural speech enhancement, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 27, no. 1, pp. 189 198, 2018.

[14] A. Pandey and D. Wang, TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain, in Proc. ICASSP, 2019, pp. 6875 6879.

[15] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, Attention is all you need, in Proc. NIPS, 2017, pp. 5998 6008.

[16] J. Hu, L. Shen, and G. Sun, Squeeze-and-excitation networks, in Proc. CVPR, 2018, pp. 7132 7141.

[17] S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, CBAM: Convolutional block attention module, in Proc. ECCV, 2018, pp. 3 19.

[18] V. A. Trinh, B. McFee, and M. I. Mandel, Bubble cooperative networks for identifying important speech cues, Interspeech 2018, 2018.

[19] Q. Zhang, Q. Song, A. Nicolson, T. Lan, and H. Li, Temporal Convolutional Network with Frequency Dimension Adaptive Attention for Speech Enhancement, in Proc. Interspeech 2021, 2021, pp. 166 170.

[20] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, Librispeech: an asr corpus based on public domain audio books, in Proc. ICASSP, 2015, pp. 5206 5210.

[21] D. B. Dean, S. Sridharan, R. J. Vogt, and M. W. Mason, The QUT-NOISE-TIMIT corpus for the evaluation of voice activity detection algorithms, in Proc. INTERSPEECH, 2010.

[22] G. Hu, 100 nonspeech environmental sounds, The Ohio State University, Department of Computer Science and Engineering, 2004.

[23] F. Saki, A. Sehgal, I. Panahi, and N. Kehtarnavaz, Smartphone-based real-time classification of noise signals using subband features and random forest classifier, in Proc. ICASSP, 2016, pp. 2204 2208.

[24] F. Saki and N. Kehtarnavaz, Automatic switching between noise classification and speech enhancement for hearing aid devices, in Proc. EMBC, 2016, pp. 736 739.

[25] H. J. Steeneken and F. W. Geurtsen, Description of the rsg-10 noise database, report IZF, vol. 3, p. 1988, 1988. [26] J. Salamon, C. Jacoby, and J. P. Bello, A dataset and taxonomy for urban sound research, in Proc. ACM-MM, 2014, pp. 1041 1044.

[27] D. Snyder, G. Chen, and D. Povey, MUSAN: A music, speech, and noise corpus, arXiv preprint arXiv:1510.08484, 2015.

[28] Y. Zhao, D. Wang, B. Xu, and T. Zhang, Monaural speech dereverberation using temporal convolutional networks with self attention, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 28, pp. 1598 1607, 2020.

[29] A. Nicolson and K. K. Paliwal, Masked multi-head selfattention for causal speech enhancement, Speech Communication, vol. 125, pp. 80 96, 2020.

[30] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014. [31] L. Liu, X. Liu, J. Gao, W. Chen, and J. Han, Understanding the difficulty of training transformers, in Proc. EMNLP, 2020, pp. 5747 5763.

[32] R. I.-T. P. ITU, 862.2: Wideband extension to recommendation P. 862 for the assessment of wideband telephone networks and speech codecs. ITU-Telecommunication standardization sector, 2007.

[33] J. Jensen and C. H. Taal, An algorithm for predicting the intelligibility of speech masked by modulated noise maskers, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 24, no. 11, pp. 2009 2022, 2016.

[34] Y. Hu and P. C. Loizou, Evaluation of objective quality measures for speech enhancement, IEEE Trans. Audio, Speech, Lang. process. , vol. 16, no. 1, pp. 229 238, 2007.

posted @ 2022-08-04 11:29 凌逆战阅读(1835) 评论(4) 收藏举报

刷新页面返回顶部