【原创】Kmeans算法 优缺点分析

优点:
原理简单(靠近中心点),实现容易(1、2 天),聚类效果中上(依赖K的选择)

缺点:
1. 无法确定K的个数 (根据什么指标确定K)
2. 对离群点敏感 (容易导致中心点偏移)
3. 算法复杂度不易控制 O(NKm), 迭代次数可能较多 (m可能会比较大)
4. 局部最优解而不是全局优 (这个和初始点选谁有关)
5. 结果不稳定 (受输入顺序影响)
6. 无法增量计算 (同5)
etc

各种改进版也是针对不同缺点的回避。

但每个问题又不是特别有普适性,所以我认为根据具体情况做出合适的改进会更好。

由于Kmeans实现简单,通过一定的数理知识回避相应的缺点也不是特别复杂,所以根据已有数据做针对性的修改更合适。
 
改进版:
k-modes
k-centroids
etc. 
 
 

未经博主允许,不能转载任何文章。

posted @ 2015-07-23 12:41  Roly-Poly  阅读(9902)  评论(0编辑  收藏  举报