MFCC 特征其实就是梅尔频谱上的倒谱分析。
Mel-frequency cepstral coefficients (MFCCs)
首先会将音频信号分成短的帧,每帧用一组滤波器(通常是 Mel scale 滤波器)进行处理,然后对每一帧取对数,并进行离散余弦变换。输出一组系数,即 MFCCs。
离散余弦变换 (DCT)
$$ F_k = \sum_{n=0}^{L-1} X[n] \cos \frac{(2n+1)k\pi}{2L} $$
可对照 JPEG 压缩中涉及的二维 DCT 变换,发现少了归一化因子 $2C(u)C(v)/L$:
DCT 正变换:
$$ F(u, v) = \frac 2L C(u) C(v) \sum_{n=0}^{L-1} \sum_{m=0}^{L-1} f(n, m) \cos \frac{(2n+1)u\pi}{2L} \cos \frac{(2m+1)v\pi}{2L} $$
DCT 逆变换:
$$ f(n, m) = \sum_{u=0}^{L-1}\sum_{v=0}^{L-1} C(u)C(v)F(u, v) \cos \frac{(2n+1)u\pi}{2L} \cos \frac{(2m+1)v\pi}{2L} $$
其中 $C(w)$ 的取值:
$$ C(w) = \begin{cases}
\frac{1}{\sqrt{2}}, & w=0 \\
1, & w \neq 0
\end{cases} $$
🕒