声纹识别中有关于LibROSA库提取MFCC特征的过程解析 - 恩格拉拉里克

个人博客https://blog.csdn.net/qq_37653144/article/details/89045363
python 中Librosa库提取MFCC特征所调用的函数关系图：

注意：
ECAPA-TDNN中关于MFCC特征的构建，其实并未使用到MFCC特征，因为ECAPA-TDNN中的mel频谱特征并未经过DCT变换，应该是直接使用到了fbank特征。

具体的原理：
fbank特征更多是希望符合声音信号的本质，拟合人耳的接收特性。DCT是线性变换，会丢失语音信号中原本的一些高度非线性成分。在深度学习之前，受限于算法，mfcc配GMMs-HMMs是ASR的主流做法。当深度学习方法出来之后，由于神经网络对高度相关的信息不敏感，mfcc不是最优选择，经过实际验证，其在神经网络中的表现也明显不如fbank。

posted on 2023-02-16 20:05 恩格拉拉里克阅读(66) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部


Copyright © 2024 恩格拉拉里克 Powered by .NET 8.0 on Kubernetes 博客园

导航