2025年常数Ｑ变换，CQT

科技前沿 • 2025-03-09 09:32 • 阅读 55

大家好，我是讯享网，很高兴认识大家。

这边博客，主要记录librosa. 中关于CQT 与perceptual_weighting()函数的理解。

1. CQT

def cqt( y, sr=22050, hop_length=512, fmin=None, n_bins=84, bins_per_octave=12, tuning=0.0, filter_scale=1, norm=1, sparsity=0.01, window="hann", scale=True, pad_mode="reflect", res_type=None, dtype=None, ):

讯享网

函数的接口如上所示，　其中

fmin: 最小的起始频率；

那么最高频率是算的呢？
已知，从最低频率开始　fmin = 32Hz, $2^5$ ,
由于总共八个音阶，　算上开始的，　所以这八个音阶对应的各自频率如下：
$2^5$ = 32Hz, 　 $2^6$ =64Hz, 　 $2^7$ =128Hz, $2^8$ =256Hz, 　
$2^9$ =512Hz, 　 $2^{10}$ =1024, 　 $2^{11}$ , 　 $2^{12}$ ,

由以上可知， $2^{12}$ 　= 4096 Hz,

1.1 参数的设置

fmin, filters个数，若是使用默认配置参数时，采样率过低（低于 4186Hz x 2），会出现如下情况：

讯享网

讯享网sound_clip, s = librosa.load(fn, sr=8000) cqtpec = librosa.cqt(y=sound_clip, sr=s)

Use a lower n_bins or a lower fmin. With the default fmin of 32.7Hz (musical C1), n_bins = 84, and bins_per_octave = 12, the highest bin falls 7 octaves higher, at 4186Hz (C8), but with a sampling rate of 8000Hz you can only deal with frequencies up to 4000Hz, so if you keep fmin the same, n_bins needs to be no more than 83.

1.2 hop length 设定

hop_len 帧移动的长度，
假设参数中，设置的 f_min = 32 Hz, = 2^5,
那么 hop_len 帧移动的长度在设置的时候，必须是32的倍数；
才能确保在输出后，输出正确的帧数；

spect = librosa.cqt(waveform, sr=9000, hop_length=188, fmin=32, filter_scale=1 )

reference:

https://blog.csdn.net/_/article/details/#t6;
https://stackoverflow.com/questions//how-can-i-extract-cqt-from-audio-with-sampling-rate-8000hz-librosa

2025年常数Ｑ变换，CQT

1. CQT

1.1 参数的设置

1.2 hop length 设定

相关推荐