摘要: [本文链接:http://www.cnblogs.com/breezedeus/archive/2012/09/05/2671572.html,转载请注明出处] 在K-means聚类算法里,我们首先需要在已有的数据点中选取K个点作为初始中心点。这个bug就出现在中心点的随机选取上,mahout的实现不是真的随机。 【位置】: org.apache.mahout.clustering.kmeans.RandomSeedGenerator#buildRandom(...) , 行 88 - 110 这段。 我简化了一下,mahout的随机抽取逻辑如下: 1: /** 2... 阅读全文
posted @ 2012-09-05 11:10 BreezeDeus 阅读(824) 评论(1) 推荐(0) 编辑