意义:扒谱;是一个中高层特征,集合了很多音符特征。
特征提取:将音频信号转换成易于分辨和声的形式。最常用的特征向量形式是 Chroma 特征。
然后还有帧与帧之间的转换等等。
比如,需要做基于 chroma 特征的和弦标签识别。
- 判别模型(?):$\argmax_s p(s \, | \, \boldsymbol x)$,即给定特征向量 $\boldsymbol x$ 出现和弦标签 $s$ 的概率。
- 可以用贝叶斯定理换成生成模型 ${\argmax_s p(\boldsymbol x \, | \, s) p(s)}$$\argmax_s p(\boldsymbol x \, | \, s) p(s)$
- $p(\boldsymbol x \, | \, s)$ 为给定和弦标签 $s$ 下出现特征向量 $\boldsymbol x$ 的概率,显然是一个高度对应的过程;
- $p(s)$ 则是和弦标签出现的概率。
变分自编码器(Variational Auto-Encoder):生成模型与识别模型的有机统一
使用变分法,新建一个概率模型 $q(s \, | \, \boldsymbol x)$ 去近似后验分布 $p(s \, | \, \boldsymbol x)$。
- 变分自编码器是一种「识别」和「生成」统一的设计思路。
- 识别:将音频信号映射到对应的音乐符号
- 生成:从音乐符号「脑补」音乐音频。