Mel_spectrum, MfCC: 是短时傅里叶变换  +  Mel 滤波器组构成

gamma_spectrum:   短时傅里叶变换  +  gamma 滤波器组构成

cqt: 常数Q变换, 短时傅里叶变换  +  常数Q因子构成;

2. CQT

主要记录librosa. 中关于CQTperceptual_weighting()函数的理解。

def cqt(
    y,
    sr=22050,
    hop_length=512,
    fmin=None,
    n_bins=84,
    bins_per_octave=12,
    tuning=0.0,
    filter_scale=1,
    norm=1,
    sparsity=0.01,
    window="hann",
    scale=True,
    pad_mode="reflect",
    res_type=None,
    dtype=None,
):

函数的接口如上所示, 其中

fmin: 最小的起始频率;

n_bins:
从fmin 开始, 总共有多少个细分的频率段,默认有 84;

bins_per_octave:  每一个音阶下,均匀分配多少个频率bins 出来;默认为 12;
所以84/12 = 7 ,  算上开始的, 0-7总共8个音阶;

那么最高频率是算的呢?
已知, 从最低频率开始 fmin = 32Hz, \(2^5\),
由于总共八个音阶, 算上开始的, 所以这八个音阶对应的各自频率如下:
\(2^5\) = 32Hz,  \(2^6\)=64Hz,  \(2^7\)=128Hz, \(2^8\)=256Hz,  
\(2^9\)=512Hz,  \(2^{10}\)=1024,  \(2^{11}\),  \(2^{12}\),

由以上可知,\(2^{12}\) = 4096 Hz,

posted on 2022-09-20 21:55  Hello_zhengXinTang  阅读(173)  评论(0)    收藏  举报