随笔分类 -  听觉

摘要:阅读 demucs 代码时,发现对频率维度有这样的操作: add frequency embedding to allow for non equivariant convolutions over the frequency axis. 但什么是非等变卷积?非等变性又是什么? 等变性 equiva 阅读全文
posted @ 2024-04-06 00:14 倒地 阅读(37) 评论(0) 推荐(0)
摘要:在阅读这个 notebook 时发现了一个小技巧:在 STFT 之前先对音频的首尾进行 Padding。 在 STFT 之前进行 Padding 假设使用长度为 \(N\) 的窗口对音频进行 STFT 之前,最好在音频首尾 Padding 出 \(N/2\) 的长度。 这是因为,例如,若希望第一个窗 阅读全文
posted @ 2024-01-12 16:45 倒地 阅读(106) 评论(0) 推荐(0)
摘要:梅尔倒频谱系数(MFCC,Mel Frequency Cepstral Coefficents)在人声领域(语音识别,说话人辨认)等领域应用广泛。 这个文章留下学习倒谱与梅尔频率的痕迹。 频谱 声音是一维时域信号。为了分析声音的频域规律,就要用到傅里叶变换,将信号从时域转换到频域。但频域信号失去了时 阅读全文
posted @ 2024-01-08 20:09 倒地 阅读(443) 评论(0) 推荐(0)