A 最优划分策略

希望每次划分子节点能使得子节点所包含的样本尽可能只含同一类别,即「纯度」越来越高。

下面称各类别标签为 $1, 2, \cdots, c, \cdots, C$,对于某种划分条件或者说属性 $a$(比如「纹理」),属性 $a$ 有 $V$ 个取值,能够将当前集合划分成 $V$ 个子节点(比如「清晰」「稍糊」「模糊」)。

A1 信息增益法

i. 信息熵

ii. 信息增益

iii. 增益率

A2 基尼指数法

i. 基尼值

ii. 基尼指数

B 决策树剪枝

B1 预剪枝

B2 后剪枝