目的
估计在数据集上进行聚类的可行性和被聚类方法产生的结果的质量。
评价方法
一、估计聚类趋势
二、确定数据集中的簇数
1. 经验方法
2. 肘方法
3. 使用信息准则或信息论的方法
4. 交叉验证
三、测定聚类质量
1. 外在方法
2. 内在方法
1. 凝聚度(cohesion)
$\text{cohesion}(C_i) = \sum_{x \in C_i, y \in C_i} \text{dist}(x, y)$
2. 分离度(separation)
$\text{separation}(C_i, C_j) = \sum_{x \in C_i, y \in C_j} \text{dist}(x, y)$
3. 轮廓系数(silhousette coefficient):考察簇的分离情况和簇的紧凑情况。
(1) 簇的紧凑性:
$ a(o) = \frac{\sum_{o^{'} \in C_i, o^{'} \neq o} \text{dist}(o^{'}, o)}{|C_i|-1} $
(2) 簇的分离程度:
$ b(o) = {\text{min}}_{C_j: 1 \le j \le k, j \neq i} \{ \frac{\sum_{o^{'} \in C_j} \text{dist}(o^{'}, o)}{|C_j|} \} $
(3) 对象 $o$ 的轮廓系数:
$ s(o) = \frac{b(o) - a(o)}{\text{max}\{a(o), b(o)\}} $
a. 考察簇的拟合性:计算簇中所有对象的轮廓系数的平均值
b. 考察聚类的质量:计算数据集中所有对象的轮廓系数的平均值
4. 簇内变差/簇内方差和:
$ E = \sum_{i=1}^k \sum_{p \in C_i} \text{dist}{(p, c_i)}^2 $
5. 簇内方差和(variance)
6. 簇的半径(radius):簇内所有点到质心的最大距离
7. 簇的直径(diameter):簇内任意两个点之间的最大距离
8. 簇的密度(density)
参考资料:
1. 《数据挖掘:概念与技术》第10章,第6节
2. 《大数据:互联网大规模数据挖掘与分布式处理》:第7章
3. http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html
浙公网安备 33010602011771号