2015 年 12月随笔档案 - ttabbss

模糊k-means聚类

摘要：接上一篇博文：聚类算法概述模糊kmeans算法是kmeans聚类模糊形式。与kmeans算法排他性聚类不同，模糊kmeans尝试从数据集中生成有重叠的簇。在研究领域，这也叫做模糊c-means算法，可以把模糊kmeans看作kmeans算法的扩展。 kmeans致力于寻找硬簇（一个数据集点只属... 阅读全文

posted @ 2015-12-10 11:39 ttabbss 阅读(1931) 评论(0) 推荐(0)

超越kmeans：聚类算法概述

摘要：kmeans属于聚类算法当中最早也是最经典一个算法，但是我们可以发现kmeans算法属于刚性聚类，例如，一则谈论政治对生物信息技术影响的新闻报道，既可以归类于政治类别，也可以归类于生物技术类别，但不能同时归于这两个类别。既然我们需要优化相关文章的这个特性，那就需要允许重叠或模糊信息。我们也许还需... 阅读全文

posted @ 2015-12-09 22:08 ttabbss 阅读(313) 评论(0) 推荐(0)

Canopy聚类算法与Mahout中的实现

摘要：前面提到的kmeans 算法需要提前设定簇的个数，我们也可以根据数据进行简单簇数目估计，但是有一类称为近似聚类算法技术可以根据给定数据集估计簇的数量以及近似的中心位置，其中有一个典型算法就是canopy生成算法。 Mahout中kmeans 算法实现使用RandomSeedGenerator类生... 阅读全文

posted @ 2015-12-09 16:14 ttabbss 阅读(457) 评论(0) 推荐(0)

Hadoop 实现kmeans 算法

摘要：关于kmeans说在前面：kmeans算法有一个硬性的规定就是簇的个数要提前设定。大家可能会质疑这个限制是否影响聚类效果，但是这种担心是多余的。在该算法诞生的这么多年里，该算法已被证明能够广泛的用于解决现实世界问题，即使簇个数k值是次优的，聚类的质量不会受到太大影响。聚类在现实中很大应用就是对... 阅读全文

posted @ 2015-12-07 11:32 ttabbss 阅读(1338) 评论(0) 推荐(0)

12 2015 档案

公告