因而应该是无法处理异或数据。
希望每次划分子节点能使得子节点所包含的样本尽可能只含同一类别,即「纯度」越来越高。
下面称各类别标签为 $1, 2, \cdots, c, \cdots, C$,对于某种划分条件或者说属性 $a$(比如「纹理」),属性 $a$ 有 $V$ 个取值,能够将当前集合划分成 $V$ 个子节点(比如「清晰」「稍糊」「模糊」)。
i. 信息熵
信息熵:将信息熵(不确定性的加权和)用于衡量样本集合的纯度(当 $p_c=0$ 时,规定不确定性为 0):
$$ {\rm Ent}(S) = -\sum_{c =1}^C p_c \log_2 p_c $$
ii. 信息增益
信息增益:对于划分条件 $a$,信息增益定义为其划分前后信息熵之差(其中划分后信息熵需要作加权和):
$$ {\rm Gain}(S, a) = {\rm Ent} (S) - \sum_{v=1}^V \frac {|S_v|}{|S|} {\rm Ent} (S_v) $$
特点:
iii. 增益率
固有值:为了对取值数目较少的属性进行偏好,对各个划分条件设置一个权值 ${\rm IV}(a)$,称为固有值(intrinsic value):
$$ {\rm IV} (a) = -\sum_{v=1}^V \frac {|S_v|}{|S|} \log_2 \frac {|S_v|}{|S|} $$
增益率:增益率即定义为:
$$ {\rm Gain\_ratio}(S, a) = \frac {{\rm Gain}(S, a)}{{\rm IV}(S, a)} $$
特点:
i. 基尼值
基尼值:定义基尼值来衡量纯度。基尼值指的是在 $S$ 中随机抽取两个样本,其样本标记不一致的概率:
$$ {\rm Gini}(S) = \sum_{c=1}^C \sum_{c' \neq c} p_c p_{c'} = 1 - \sum_{c=1}^C p_c^2 $$
ii. 基尼指数
基尼指数:基尼指数即为划分后各集合基尼值的加权和。
$$ {\rm Gini\index}(S, a) = \sum{v=1}^V \frac {|S_v|}{|S|} {\rm Gini}(S_v) $$