请留意,下面的各样本 $\boldsymbol x$ 和各概率 $P$ 指的是样本空间中任意样本及其相关的实质关系的概率,而不是有限训练集中的样本 $\boldsymbol x^{(i)}$ 及其在训练集中体现出的频率 $f$。
i. 各类概率的概念
ii. 目标与问题
iii. 学习方法
基于贝叶斯定理,联合概率可描述为 $P(\boldsymbol x, c) = P(c) P(\boldsymbol x \ | \ c)$,结合两式即有:
$$ P(c \ | \ \boldsymbol x) = \frac{P(c) P(\boldsymbol x \ | \ c)}{ P(\boldsymbol x)} $$
预测时只需要对于给定的 $\boldsymbol x$ 得出哪个 $c$ 有更高的 $P(c \ | \ \boldsymbol x)$ ,因而上式只需要考虑分子的大小,证据因子 $P(\boldsymbol x)$ 与 $c$ 无关而可忽略。
鉴于 $P(c)$ 有大数定律支撑而易于求得,便只剩下对条件概率(似然)$P(\boldsymbol x \ | \ c)$ 进行建模**。**
以多分类问题为例,假设有 $C$ 种可能的标签。
i. 损失矩阵:
ii. 后验概率
iii. 分类器、预测标签:
iv. 条件风险 (conditional risk):
$$ R(\hat c \ | \ \boldsymbol x) = \sum_{i=1}^C \lambda(c_i, \hat c) \cdot P(c_i \ | \ \boldsymbol x) $$
v. 总体风险:
一个分类器 $h$ 具备的总体风险 $R(h)$,为其对于分布 $\mathcal X$ 中所有 $\boldsymbol x$ 而言判断结果风险的期望:
$$ R(h) = {\mathbb E}_{\boldsymbol x \, {\rm obeys} \, \mathcal X} \,
R(h(\boldsymbol x) \ | \ \boldsymbol x)
$$
vi. 贝叶斯最优分类器:
贝叶斯判定准则 (Bayes decision rule):为最小化总体风险 $R(h)$,只需在每个样本 $\boldsymbol x$ 上选择有着最小条件风险 $R(c \ | \ \boldsymbol x)$ 的类别标记 $c^*$,即:
$$ h^(\boldsymbol x) = c^ = \argmin_{c \in {[1, C] \cap \Z}} R(c \ | \ \boldsymbol x) $$
它能最小化每个样本的风险,所以自然也能最小化总体风险 $R(h)$。
这样的 $h^$ 称为贝叶斯最优分类器,与之对应的最小总体风险 $R(h^)$ 称为贝叶斯风险。其反映了分类器理论上能达到的最好表现。
vii. 能最小化分类错误率的贝叶斯最优分类器
现举一个特殊实例,目标为之前所述的最小化「分类错误率」,有:
$$ \lambda(c, \hat c) = \begin{cases}
0, & c = \hat c \\ 1, & c \neq \hat c
\end{cases} $$
那么条件风险 $R(\hat c \ | \ \boldsymbol x)$ 这时能与后验概率 $P(c_i \ | \ \boldsymbol x)$ 挂钩,通过下式:
$$ R(\hat c \ | \ \boldsymbol x) = \sum_{i=1}^C \lambda(c_i, \hat c) \cdot P(c_i \ | \ \boldsymbol x) = \sum_{i\in[1, C] \, \wedge \, c_i \neq \hat c} P(c_i \ | \ \boldsymbol x) = 1 - P(\hat c \ | \ \boldsymbol x) $$
因而贝叶斯最优分类器 $h^*$ 为:
$$ h^(\boldsymbol x) = c^ = \argmin_{c \in [1, C] \cap \Z} R(c \ | \ \boldsymbol x) = \argmax_{c \in [1, C] \cap \Z} P(c \ | \ \boldsymbol x) $$
结论:挑选后验概率 $P(c \ | \ \boldsymbol x)$最大的类别标记,即可最小化分类错误率。
如果「A1 iii. 2.」生成式模型将后验概率转为似然 $P(\boldsymbol x \ | \ c)$,则有:
$$ h^*(\boldsymbol x) = \argmax_{c \in [1, C] \cap \Z} P(c) P(\boldsymbol x \ | \ c) $$