A 贝叶斯决策论

请留意，下面的各样本 $\boldsymbol x$ 和各概率 $P$ 指的是样本空间中任意样本及其相关的实质关系的概率，而不是有限训练集中的样本 $\boldsymbol x^{(i)}$ 及其在训练集中体现出的频率 $f$。

因果关系图：如下。将类别状态（标签）视为因，将观测状态（样本）视为果。
- 注意：下例只有 2 个观测状态，在这种样本空间较小、数据集较大的情况下，能更好地反映实质联系；而实际情况下可能会存在很大的样本空间，部分样本出现的频次不足以表征其与标签间完整的特征，甚至有的样本不会在数据集出现。这也是下面要提到的 $\boldsymbol x, P$ 与 $\boldsymbol x^{(i)}, f$ 的差异之一。

Untitled

i. 各类概率的概念

证据因子 $P(\boldsymbol x)$：样本空间中各类样本（证据）的出现概率。
类先验概率 $P(c)$：表达样本空间中各类样本所占的比例，可由各类样本的出现频率 $f(c)$ 进行估计（大数定律说明了充足的独立同分布样本中可通过频率估计概率）。「先验 (prior)」意为这是还没有观察到 $\boldsymbol x$ 时 $c$ 的概率。
后验概率 $P(c \ | \ \boldsymbol x)$：表达样本可能属于某类别的概率。「后验 (posterior)」意为这是观察到 $\boldsymbol x$ 的情况下 $c$ 的条件概率。
条件 (conditional) 概率 $P(\boldsymbol x \ | \ c)$，或被称为「似然 (likelihood)」，表达各个类别下各样本的分布。
- 然而，使用频率来估计似然 $P(\boldsymbol x \ | \ c)$ 是不可行的，因为在实际情况下，绝大多数的样本取值 $\boldsymbol x$ 是在训练集中根本不出现的，「未被观测到」与「出现概率为 0」不等价。

ii. 目标与问题

如果能求得样本空间中所有 $\boldsymbol x$ 对所有 $c$ 的后验概率 $P(c \ | \ \boldsymbol x)$，就能通过 $\boldsymbol x$ 对 $c$ 进行合理预测了。
- 事实上在「A2」中将会提到，能最小化分类错误率的贝叶斯最优分类器就是 $h^*(\boldsymbol x) = \argmax_{c \in [1, C] \cap \Z} P(c \ | \ \boldsymbol x)$。
然而 $\boldsymbol x$ 描述的样本空间可能很广阔，样本可能只是描述了样本空间的一部分，实际上要进行各种处理，以从有限样本还原样本空间中呈现的分布。

iii. 学习方法

判别式模型：直接通过数据集对后验概率 $P(c \ | \ \boldsymbol x)$ 进行建模。
- 如决策树、BP 神经网络、支持向量机。
生成式模型：先对联合概率 $P(\boldsymbol x, c)$ 进行建模，再通过 $P(c \ | \ \boldsymbol x) = \frac{P(\boldsymbol x, c)}{P(\boldsymbol x)}$ 获得后验概k率。
- 基于贝叶斯定理，联合概率可描述为 $P(\boldsymbol x, c) = P(c) P(\boldsymbol x \ | \ c)$，结合两式即有：
  
  $$ P(c \ | \ \boldsymbol x) = \frac{P(c) P(\boldsymbol x \ | \ c)}{ P(\boldsymbol x)} $$
- 预测时只需要对于给定的 $\boldsymbol x$ 得出哪个 $c$ 有更高的 $P(c \ | \ \boldsymbol x)$ ，因而上式只需要考虑分子的大小，证据因子 $P(\boldsymbol x)$ 与 $c$ 无关而可忽略。
- 鉴于 $P(c)$ 有大数定律支撑而易于求得，便只剩下对条件概率（似然）$P(\boldsymbol x \ | \ c)$ 进行建模**。**

以多分类问题为例，假设有 $C$ 种可能的标签。

i. 损失矩阵：

定义一个 $C\times C$ 矩阵 $\boldsymbol \Lambda$，其中 $\lambda_{ij}$ 指的是将真相标签 $c_i$ 判断为 $c_j$ 所产生的损失（一般正确即 $c_i = c_j$ 时的损失 $\lambda_{ii}$ 定义为 0，错误则大于 0）。将损失也记为 $\lambda(c_i, c_j)=\lambda_{ij}$。
比如，能最小化「分类错误率」的损失矩阵 $\boldsymbol \Lambda$ 仅在对角线上为 $0$，其余地方为 $1$。

ii. 后验概率

假设样本空间任意处的样本 $\boldsymbol x$，其对于任意标签 $c$ 具有的后验概率为 $P(c \ | \ \boldsymbol x)$。
- 后验概率表现了一种「真相概率」，也就是 $\boldsymbol x$ 对应的真实标签为 $c_i$ 的概率。
- 确定的样本 $\boldsymbol x$ 对各标签后验概率之和应为一，即 $\sum_{i=1}^C P(c_i \ | \ \boldsymbol x)=1$。

iii. 分类器、预测标签：

对于任一个分类器 $h: {\mathcal X} \to {\mathcal Y}$（${\mathcal Y} = [1, C] \cap \Z$），会将任意样本 $\boldsymbol x$ 映射为预测标签 $\hat c = h(\boldsymbol x)$。

iv. 条件风险 (conditional risk)：

对 $\boldsymbol x$，有其对各标签 $c_i$ 的后验概率即所谓「真相概率」$P(c_i \ | \ \boldsymbol x)$，又从模型 $h$ 获得其预测标签 $\hat c = h(\boldsymbol x)$，那么可以对 $\boldsymbol x$ 的判断 $\hat c$ 所具备的期望损失，又称为条件风险：

$$ R(\hat c \ | \ \boldsymbol x) = \sum_{i=1}^C \lambda(c_i, \hat c) \cdot P(c_i \ | \ \boldsymbol x) $$

即以后验概率（真相概率）$P(c_i \ | \ \boldsymbol x)$ 为权，枚举各真相标签 $c_i$，看看判断为 $\hat c$ 下会产生的损失 $\lambda(c_i, \hat c)$ ，以此求损失的期望。

v. 总体风险：

vi. 贝叶斯最优分类器：

贝叶斯判定准则 (Bayes decision rule)：为最小化总体风险 $R(h)$，只需在每个样本 $\boldsymbol x$ 上选择有着最小条件风险 $R(c \ | \ \boldsymbol x)$ 的类别标记 $c^*$，即：

$$ h^(\boldsymbol x) = c^ = \argmin_{c \in {[1, C] \cap \Z}} R(c \ | \ \boldsymbol x) $$

它能最小化每个样本的风险，所以自然也能最小化总体风险 $R(h)$。
这样的 $h^$ 称为贝叶斯最优分类器，与之对应的最小总体风险 $R(h^)$ 称为贝叶斯风险。其反映了分类器理论上能达到的最好表现。

vii. 能最小化分类错误率的贝叶斯最优分类器

现举一个特殊实例，目标为之前所述的最小化「分类错误率」，有：

$$ \lambda(c, \hat c) = \begin{cases}

0, & c = \hat c \\ 1, & c \neq \hat c

\end{cases} $$
那么条件风险 $R(\hat c \ | \ \boldsymbol x)$ 这时能与后验概率 $P(c_i \ | \ \boldsymbol x)$ 挂钩，通过下式：

$$ R(\hat c \ | \ \boldsymbol x) = \sum_{i=1}^C \lambda(c_i, \hat c) \cdot P(c_i \ | \ \boldsymbol x) = \sum_{i\in[1, C] \, \wedge \, c_i \neq \hat c} P(c_i \ | \ \boldsymbol x) = 1 - P(\hat c \ | \ \boldsymbol x) $$
因而贝叶斯最优分类器 $h^*$ 为：

$$ h^(\boldsymbol x) = c^ = \argmin_{c \in [1, C] \cap \Z} R(c \ | \ \boldsymbol x) = \argmax_{c \in [1, C] \cap \Z} P(c \ | \ \boldsymbol x) $$
- 结论：挑选后验概率 $P(c \ | \ \boldsymbol x)$最大的类别标记，即可最小化分类错误率。
- 如果「A1 iii. 2.」生成式模型将后验概率转为似然 $P(\boldsymbol x \ | \ c)$，则有：
  
  $$ h^*(\boldsymbol x) = \argmax_{c \in [1, C] \cap \Z} P(c) P(\boldsymbol x \ | \ c) $$

B 极大似然估计