决策树是判别式模型,贝叶斯模型是生成式模型。

贝叶斯定理在一些领域的应用 ——卜凡.pdf

贝叶斯分类器

贝叶斯最优分类器:对于每个样本 $x$ ,选择后验概率 $P(c|x)$ 最大的标记 $c$ 。

Untitled

在朴素贝叶斯文本分类中,假设各个单词之间没有联系,用文本特征向量来表示这篇文章。(实际上,各个词语之间有上下文联系。)

朴素贝叶斯分类器如下:

Untitled

如果给入 $x = [sunny, cool, normal, strong]$,要求 $P(No|x)$ 和 $P(Yes|x)$ 哪个大,即求 $P(x|No)P(No)$ 和 $P(x|Yes)P(Yes)$ 哪个大(分母一样)。

有:

$$ P(x|No) = P(sunny|No) P(cool|No) P(normal|No) P(strong|No) $$

求先验概率

求先验概率如 $P(Yes)$ $P(sunny|Yes)$ 等等时,用的是以下原始公式,后面需要做修正:

Untitled

对先验概率做拉普拉斯修正

Untitled

Untitled

半朴素贝叶斯分类器

对属性间条件独立假设进行一定程度的放松。「独依赖估计」策略假设:每个属性在类别之外最多仅依赖一个其他属性,做法就是做如下的替换:

$$ P(x_i | c) \to P(x_i| c, p(x_i)) $$