i. 基于混淆矩阵的指标
如下图所示的例子。
如果定义三个大袋子是得到的聚类结果(对应簇标记为 $\lambda$),而图标 ○=1,◇=2,×=3 为参考模型结果或标记数据(对应簇标记为 $\pi$),那么发现一共有四种情况:
上述四种情况的全集,其实涉及了所有的样本无序对 $(\boldsymbol x^{(i)}, \boldsymbol x^{(j)}) \in X \times X$ 且 $i < j$,一共有 $PC = \frac {|X|(|X| - 1)}{2}$ 个无序对(暂称为 Pair Count)。
因而说统计一下所有的样本无序对,通过他们的 $\lambda_i, \lambda_j$ 和 $\pi_i, \pi_j$ 关系得到如下四种类别,构成一个混淆矩阵:
真实\预测 | 同簇 $\lambda_i = \lambda_j$ | 不同簇 $\lambda_i \neq \lambda_j$ |
---|---|---|
同簇 $\pi_i = \pi_j$ | 真正例 TP √ | 假负例 FN |
不同簇 $\pi_i \neq \pi_j$ | 假正例 FP | 真负例 TN √ |
基于上述混淆矩阵,可以导出如下指标:
兰德指标 (Rand Index, RI),即为这个混淆矩阵的准确率,范围为 $[0, 1]$:
$$ RI = \frac {TP + TN}{PC} $$
混淆矩阵的 F1-score,范围为 $[0, 1]$:
$$ P = \frac {TP}{TP+ FP}, \ \ \ R = \frac {TP}{TP+ FN}, \ \ \ F_1 = \frac {2PR}{P + R} $$
Jaccard 系数 (Coefficient),范围为 $[0, 1]$:
$$ JC = \frac {TP}{TP + FP + FN} $$
Fowlkes and Mallows 指标 (FMI),范围为 $[0, 1]$:
$$ FMI = \sqrt{P \cdot R} $$
ii. 基于纯度的指标
仍然是下例。
定义三个大袋子是得到的聚类结果(对应簇为 $C_k$,共 $K$ 个),而图标 ○=1,◇=2,×=3 为参考模型结果或标记数据(对应簇为 $B_l$,共 $L$ 个簇)。
认为对每个袋子 $C_k$ 而言,其中出现最多的图标为其对应的「正确簇」,正确簇编号记为 $Act[k]$,正确簇就为 $B_{Act[k]}$,有:
$$ Act[k] = \argmax_{l=1}^L |C_k \cap B_l| $$
那么纯度 (purity) 就定义为所有袋子 $C_k$ 中属于其正确簇 $B_{Act[k]}$ 的样本占所有样本 $|X|$ 的比例。
$$ P = \frac 1{|X|} \sum_{k=1}^K \max_{l=1}^L |C_k \cap B_l| $$
i. 距离函数的定义
ii. 有序属性的距离度量
常用的有序属性(连续属性或有序离散属性)距离函数可以纳入闵可夫斯基距离 (Minkowski distance) $\| \boldsymbol x - \boldsymbol y \|_p$ 的范畴:
余弦距离:对于高维属性,闵可夫斯基距离一般是无效的,因为样本之间距离随着维数增加而增加。这时候换用余弦衡量距离可能更好:
$$ \cos (\boldsymbol x, \boldsymbol y) = \frac {\boldsymbol x^{\rm T} \boldsymbol y}{\| \boldsymbol x \|_2 \| \boldsymbol y \|_2} $$
iii. 无序属性的距离度量
一种无序属性的度量方法是 Value Difference Metric (VDM) 距离 [Stanfill and Waltz, 1986]。称对于属性 $u$ 而言的取值集合为 $U = \{ u_1, u_2, \cdots, u_{|U|} \}$,那么称任两个取值 $a=u_i, b=u_j$ 间的 VDM 距离为:
$$ {\rm VDM}p (a, b) = \sum{k=1}^K \left| \frac {|X_{u=a}\cap C_k|}{|X_{u=a}|} - \frac {|X_{u=b}\cap C_k|}{|X_{u=b}|}\right|^p $$
iv. 综合距离和加权距离
综合距离:综合考虑 $d_0$ 个有序属性(使用闵可夫斯基距离)和 $d_1$ 个无序属性(使用 VDM 距离):
$$ {\rm dist} (\boldsymbol x, \boldsymbol y) = \left( \sum_{u=1}^{d_0} |x_{0, u} - y_{0, u}|^p + \sum_{v=1}^{d_1} {\rm VDM}p (x{1, v}, y_{1, v}) \right)^{\frac 1p} $$
维度加权距离:不同属性的重要性不同时,可以给维度赋予权重。通常权重之和为 1.