Mel_spectrum, MfCC: 是短时傅里叶变换 + Mel 滤波器组构成
gamma_spectrum: 短时傅里叶变换 + gamma 滤波器组构成
cqt: 常数Q变换, 短时傅里叶变换 + 常数Q因子构成;
2. CQT
主要记录librosa. 中关于CQT 与perceptual_weighting()函数的理解。
def cqt(
y,
sr=22050,
hop_length=512,
fmin=None,
n_bins=84,
bins_per_octave=12,
tuning=0.0,
filter_scale=1,
norm=1,
sparsity=0.01,
window="hann",
scale=True,
pad_mode="reflect",
res_type=None,
dtype=None,
):
函数的接口如上所示, 其中
fmin: 最小的起始频率;
n_bins:
从fmin 开始, 总共有多少个细分的频率段,默认有 84;
bins_per_octave: 每一个音阶下,均匀分配多少个频率bins 出来;默认为 12;
所以84/12 = 7 , 算上开始的, 0-7总共8个音阶;
那么最高频率是算的呢?
已知, 从最低频率开始 fmin = 32Hz, \(2^5\),
由于总共八个音阶, 算上开始的, 所以这八个音阶对应的各自频率如下:
\(2^5\) = 32Hz, \(2^6\)=64Hz, \(2^7\)=128Hz, \(2^8\)=256Hz,
\(2^9\)=512Hz, \(2^{10}\)=1024, \(2^{11}\), \(2^{12}\),
由以上可知,\(2^{12}\) = 4096 Hz,
course2610
浙公网安备 33010602011771号