随笔分类 - 听觉
摘要:阅读 demucs 代码时,发现对频率维度有这样的操作: add frequency embedding to allow for non equivariant convolutions over the frequency axis. 但什么是非等变卷积?非等变性又是什么? 等变性 equiva
阅读全文
摘要:在阅读这个 notebook 时发现了一个小技巧:在 STFT 之前先对音频的首尾进行 Padding。 在 STFT 之前进行 Padding 假设使用长度为 \(N\) 的窗口对音频进行 STFT 之前,最好在音频首尾 Padding 出 \(N/2\) 的长度。 这是因为,例如,若希望第一个窗
阅读全文
摘要:梅尔倒频谱系数(MFCC,Mel Frequency Cepstral Coefficents)在人声领域(语音识别,说话人辨认)等领域应用广泛。 这个文章留下学习倒谱与梅尔频率的痕迹。 频谱 声音是一维时域信号。为了分析声音的频域规律,就要用到傅里叶变换,将信号从时域转换到频域。但频域信号失去了时
阅读全文

浙公网安备 33010602011771号