数据表:有属性和结果。我们按照属性来划分决策树。
递归过程:
划分的结果如下。
希望分支包含的样本尽可能属于同一类别,即信息的「纯度」够高。
香农:「信息熵」,概念描述信源的不确定性,也是度量集合的纯度最常用的指标。
「信息量」:衡量不确定性的大小,需要满足:
因而取信息量为概率的负对数 $f(p) = \log \frac 1 p = -\log p$ 。
度量集合划分方法的纯度。假如集合 $D$ 有 $N$ 类结果样本,每类样本分别占比为 $p_i, i \in \{1, 2, \cdots N\}$ 。那么 $D$ 的信息熵定义为信息量的期望:
$$ Ent(D) = -\sum_{i=1}^{N} p_i \log p_i $$
比如一个样本集合中有 3 个好瓜, 5 个坏瓜,那么信息熵为:
$$
二分类任务的 $N =2$ 。