聚类算法评估指标_ SC系数与CH系数代码实现
本章会介绍用于评估聚类模型的指标SC系数和CH系数,并解释其为什么可以用于聚类模型的评估
一、SC轮廓系数法(Silhouette Coefficient)
轮廓系数法同时考虑簇内的内聚程度(Cohesion)与簇间的分离程度(Separation),具体计算过程如下:
- 计算每一个样本 \(i\) 到同簇内其他样本的平均距离 \(a_i\),该值越小,代表簇内样本相似度越高。
- 计算每一个样本 \(i\) 到最近其他簇 \(j\) 内所有样本的平均距离 \(b_{ij}\),该值越大,代表该样本越不容易被误分到其他簇。
- 通过公式计算单个样本的轮廓系数:
\[S = \frac{b-a}{\max(a,b)}
\]
- 取全部样本轮廓系数的平均值作为整体聚类效果评估指标。
- 轮廓系数取值范围:\([-1, 1]\),SC数值越接近1,代表聚类效果越好。
参数说明
- \(a\):样本\(i\)到自身簇内其余样本的平均距离
- \(b\):样本\(i\)到所有其他簇平均距离中的最小值
- 我们希望\(a\)越小越好(簇内样本接近),\(b\)越大越好(各簇之间样本远离);当\(b\)变大时,\(S\)变大,当\(a\)变小时,\(S\)变小。
二、CH系数(Calinski-Harabasz)
CH 系数综合考虑簇内的内聚程度、簇外的离散程度以及聚类质心的个数。
优化目标:类别内部数据的距离平方和越小越好,类别之间的距离平方和越大越好,聚类的类别数量越少越好。
1.计算公式
\[\text{CH}(k) = \frac{SSB}{SSW} \cdot \frac{m-k}{k-1}
\]
\[SSW = \sum_{i=1}^{m} \left\| x_i - C_{pi} \right\|^2
\]
\[SSB = \sum_{j=1}^{k} n_j \left\| C_j - \bar{X} \right\|^2
\]
SSW(簇内距离,等价于SSE)
- \(C_{pi}\):当前样本所属簇的质心
- \(x_i\):单个样本
- 含义:所有样本点到自身簇质心的距离平方累加和,用来衡量簇内的内聚程度
- 指标特性:\(SSW\) 越小,簇内样本越紧密,聚类效果越好
SSB(簇间距离)
- \(C_j\):第\(j\)个簇的质心
- \(\bar{X}\):全部样本的全局均值
- \(n_j\):第\(j\)个簇内的样本数量
- 含义:衡量不同簇之间的分离程度
- 指标特性:\(SSB\) 越大,簇与簇之间区分越明显
参数说明
- \(m\):总样本数量
- \(k\):聚类质心(簇)的个数
- \(SSW\)越小,说明各簇之前越接近,CH系数越大;\(SSB\) 越大,相当于各簇之前越离散,CH系数越大;K越小,CH也会变大;因此我们希望寻找CH更大的模型。
CH系数评价规则
CH系数数值越大,代表簇内越紧凑、簇间越分散,整体聚类效果越优。
三、代码实现
导入相关的库
import os
os.environ['OMP_NUM_THREADS'] = '4' # 设置OMP程序运行时使用的线程数
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.metrics import calinski_harabasz_score,silhouette_score
1.定义函数,演示:SC轮廓系数法
def dm02_sc():
# 1. 定义sc列表,记录:每个K值的sc值
sc_list = []
# 2.生成数据集. 参1:样本数量;参2:特征数量;参3:4个簇;参4:标准差
x,y = make_blobs(
n_samples=1000,
n_features=2,
centers=[[-1,-1],[0,0],[1,1],[2,3]],
cluster_std=[0.4,0.2,0.2,0.2],
random_state=23
)
# 3.for 训练遍历,获取到每个K值,计算其对应的sc值,并添加到sc_list列表中
for k in range(2,100): #考虑簇外,至少两个簇
# 3.1 创建Kmeans对象.参1:簇的数量;参2:最大迭代次数;参3:固定的随机数种子
estimator = KMeans(n_clusters=k,max_iter=100,random_state=23)
# 3.2 训练模型
estimator.fit(x)
# 3.3 模型预测
y_pred = estimator.predict(x)
# 3.4 获取每个簇的sc值
sc_value = silhouette_score(x,y_pred)
# 3.5 将每个k值对应的sc值,添加到sc_list列表中
sc_list.append(sc_value)
# 4.绘制sc曲线-->数据可视化
# 4.1 创建画布,指定:画布的尺寸
plt.figure(figsize=(20,10))
# 4.2 设置标题
plt.title('sc value')
# 4.3 设置x的刻度
plt.xticks(range(2,100,3))
# 4.4 添加x轴,y轴的标签
plt.xlabel('k')
plt.ylabel('sc')
# 4.5 绘制网格
plt.grid()
# 4.6 绘制折线图
# 参1:k值;参2:该k值对应的sc值
plt.plot(range(2,100),sc_list)
# 4.7 显示图像
plt.show()
dm02_sc()
2.定义函数,演示:ch轮廓系数法
def dm03_ch():
# 1. 定义ch列表,记录:每个K值的ch值
ch_list = []
# 2.生成数据集. 参1:样本数量;参2:特征数量;参3:4个簇;参4:标准差
x,y = make_blobs(
n_samples=1000,
n_features=2,
centers=[[-1,-1],[0,0],[1,1],[2,3]],
cluster_std=[0.4,0.2,0.2,0.2],
random_state=23
)
# 3.for 训练遍历,获取到每个K值,计算其对应的ch值,并添加到ch_list列表中
for k in range(2,100): #考虑簇外,至少两个簇
# 3.1 创建Kmeans对象.参1:簇的数量;参2:最大迭代次数;参3:固定的随机数种子
estimator = KMeans(n_clusters=k,max_iter=100,random_state=23)
# 3.2 训练模型
estimator.fit(x)
# 3.3 模型预测
y_pred = estimator.predict(x)
# 3.4 获取每个簇的ch值
ch_value = calinski_harabasz_score(x,y_pred)
# 3.5 将每个k值对应的ch值,添加到ch_list列表中
ch_list.append(ch_value)
# 4.绘制ch曲线-->数据可视化
# 4.1 创建画布,指定:画布的尺寸
plt.figure(figsize=(20,10))
# 4.2 设置标题
plt.title('ch value')
# 4.3 设置x的刻度
plt.xticks(range(2,100,3))
# 4.4 添加x轴,y轴的标签
plt.xlabel('k')
plt.ylabel('ch')
# 4.5 绘制网格
plt.grid()
# 4.6 绘制折线图
# 参1:k值;参2:该k值对应的ch值
plt.plot(range(2,100),ch_list)
# 4.7 显示图像
plt.show()
dm03_ch()

浙公网安备 33010602011771号