摘要:
kmeans属于聚类算法当中最早也是最经典一个算法,但是我们可以发现kmeans算法属于刚性聚类,例如,一则谈论政治对生物信息技术影响的新闻报道,既可以归类于政治类别,也可以归类于生物技术类别,但不能同时归于这两个类别。既然我们需要优化相关文章的这个特性,那就需要允许重叠或模糊信息。我们也许还需... 阅读全文
posted @ 2015-12-09 22:08
ttabbss
阅读(313)
评论(0)
推荐(0)
摘要:
前面提到的kmeans 算法需要提前设定簇的个数,我们也可以根据数据进行简单簇数目估计,但是有一类称为近似聚类算法技术可以根据给定数据集估计簇的数量以及近似的中心位置,其中有一个典型算法就是canopy生成算法。 Mahout中kmeans 算法实现使用RandomSeedGenerator类生... 阅读全文
posted @ 2015-12-09 16:14
ttabbss
阅读(457)
评论(0)
推荐(0)
浙公网安备 33010602011771号