1.k-means中的k如何确定呢?

答:

法1:(轮廓系数)在实际应用中,由于Kmean一般作为数据预处理,或者用于辅助分聚类贴标签。所以k一般不会设置很大。可以通过枚举,令k从2到一个固定值如10,在每个k值上重复运行数次kmeans(避免局部最优解),并计算当前k的平均轮廓系数,最后选取轮廓系数最大的值对应的k作为最终的集群数目。
法2:使用Gap Statistic公式来确定k值,Gap最大值对应的k值就是最佳聚类数。

posted on 2018-05-07 12:40  冯妹妹Q  阅读(217)  评论(0)    收藏  举报