K-Means++算法

2012-12-20 17:40 shelocks 阅读(19395) 评论(1) 收藏举报

k-means算法是一种基本的聚类算法，这个算法的先决条件是

　　1）必须选择最终结果需要聚为几类，就是k的大小。

　　2）初始化聚类中心点，也就是seeds。

　　当然，我们可以在输入的数据集中随机的选择k个点作为seeds，但是随机选择初始seeds可能会造成聚类的结果和数据的实际分布相差很大。既然选择初始的seeds这么重要，那有什么算法可以帮助选择初始的seeds吗？当然有，k-means++就是选择初始seeds的一种算法。

k-means++算法选择初始seeds的基本思想就是：初始的聚类中心之间的相互距离要尽可能的远。wiki上对该算法的描述是如下:

从上面的算法描述上可以看到，算法的关键是第3步，如何将D(x)反映到点被选择的概率上，一种算法如下(详见此地)：

先从我们的数据库随机挑个随机点当“种子点”
对于每个点，我们都计算其和最近的一个“种子点”的距离D(x)并保存在一个数组里，然后把这些距离加起来得到Sum(D(x))。
然后，再取一个随机值，用权重的方式来取计算下一个“种子点”。这个算法的实现是，先取一个能落在Sum(D(x))中的随机值Random，然后用Random -= D(x)，直到其<=0，此时的点就是下一个“种子点”。
重复2和3直到k个聚类中心被选出来
利用这k个初始的聚类中心来运行标准的k-means算法

可以看到算法的第三步选取新中心的方法，这样就能保证距离D(x)较大的点，会被选出来作为聚类中心了。至于为什么原因很简单，如下图所示：

假设A、B、C、D的D(x)如上图所示，当算法取值Sum(D(x))*random时，该值会以较大的概率落入D(x)较大的区间内，所以对应的点会以较大的概率被选中作为新的聚类中心。So it's work!

参考资料：

刷新页面返回顶部

shelocks