意义:扒谱;是一个中高层特征,集合了很多音符特征。

特征提取:将音频信号转换成易于分辨和声的形式。最常用的特征向量形式是 Chroma 特征。

然后还有帧与帧之间的转换等等。

比如,需要做基于 chroma 特征的和弦标签识别。

变分自编码器(Variational Auto-Encoder):生成模型与识别模型的有机统一

使用变分法,新建一个概率模型 $q(s \, | \, \boldsymbol x)$ 去近似后验分布 $p(s \, | \, \boldsymbol x)$。