为什么一般采集到的音频信号在高频分量上强度较弱?
我们熟知的 DFS 公式是下面这样的。
$$ \tilde X[k] = \frac {1}{\sqrt{N}}\sum_{n=0}^{N-1} \tilde x [n] {\rm e}^{-{\rm j} \frac {2\pi}{N} n k} $$
相位差:相位谱中的差值,一般要取前向和后向之幅值最小的一者,即对于任意 $\phi_1, \phi_2 \in (-\pi, +\pi]$,通过这样的方式得到 $\phi_2 \ominus \phi_1 \in [-\pi, +\pi]$:
$$ \phi_2 \ominus \phi_1 = \begin{cases}
\phi_2 - \phi_1, & |\phi_2 - \phi_1| \le \pi \\
(\phi_2-2\pi) - \phi_1, & |\phi_2 - \phi_1| > \pi {\rm \ and \ } \phi_2 \ge \phi_1 \\
(\phi_2 + 2\pi) - \phi_1, & |\phi_2 - \phi_1| > \pi {\rm \ and \ } \phi_2 < \phi_1 \\
\end{cases} $$
有效区间映射:将任意角 $\phi \in \R$ 循环映射到有效区间 $c_\phi(\phi) \in [-\pi, +\pi)$ 的方法:
$$ c_\phi(\phi) = ((\phi + \pi) {\, \rm mod \,} 2\pi) - \pi $$
下面用这个 [1, 2, 3, 4, 5]
原始信号的变换为例。原始信号的傅里叶变换为:
后补零:随着补零数目的增加,每个点都会逐渐变成一个 sinc 函数。
下面是在后面补了 100 个零的结果。
周期重复:随着周期重复数的增加,每个点都会逐渐变成一个冲激函数。
下面是重复 100 次后的结果。
基于感知或乐理的频谱变换
语音特征提取: 看懂梅尔语谱图(Mel-spectrogram)、梅尔倒频系数(MFCCs)的原理_melspectrogram_BeichenLiu.Polaris的博客-CSDN博客