Kmeans聚类空值如何选择
******************************* * 原文 http://baijiahao.baidu.com/s?id=1713309801696391606 **************************
算法流程
1 首先确定一个K值,即我们希望将数据集经过聚类得到K个集合
2 从数据集中随机选择K个数据作为质心
3 对数据集中每一个点,计算其与每一个质心的距离(默认为欧式距离),离哪个质心近,就划分到哪个质心近的集合
4 把所有数据归好集合后,一共有K个集合,然后重新计算每个集合的质心
5 如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值,(该阈值表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),我们可以认为聚类已经达到期望的结果,算法终止
6 如果新质心和原来的质心距离变化很大,需要迭代3-5步骤
用booststrap的方法来确定k的取值
需要定义一个评估聚类的效果好坏量化的指标,即总体类内误差 评估
直觉来说好的聚类的类内误差比一个坏的聚类误差要低。
一般来说,相比K类,K+1类的kmeans得到更紧凑的聚类,是的总体内误差值降低。只要K+1类的真实数据至少比K类的95%要小,那么就接受K+1类。后面依次增加K,直到不满足条件。

浙公网安备 33010602011771号