恩格拉拉里克  

个人博客https://blog.csdn.net/qq_37653144/article/details/89045363
python 中Librosa库提取MFCC特征所调用的函数关系图:

注意:
ECAPA-TDNN中关于MFCC特征的构建,其实并未使用到MFCC特征,因为ECAPA-TDNN中的mel频谱特征并未经过DCT变换,应该是直接使用到了fbank特征。

具体的原理:
fbank特征更多是希望符合声音信号的本质,拟合人耳的接收特性。DCT是线性变换,会丢失语音信号中原本的一些高度非线性成分。在深度学习之前,受限于算法,mfcc配GMMs-HMMs是ASR的主流做法。当深度学习方法出来之后,由于神经网络对高度相关的信息不敏感,mfcc不是最优选择,经过实际验证,其在神经网络中的表现也明显不如fbank。

posted on 2023-02-16 20:05  恩格拉拉里克  阅读(66)  评论(0编辑  收藏  举报