聚类算法笔记

转载请注明出处: http://www.cnblogs.com/gufeiyang

　个人微博：flysea_gu

聚类的算法有很多，现在已知的算法主要有以下四中类型。划分聚类、层次聚类、基于密度的聚类、基于表格的聚类。

（1）划分聚类对于给定的数据集，划分聚类需要知道要划分簇的数目k（k<=n, n是数据集中项的数目）。划分聚类将数据分为k组，每组至少有一项。大多数划分聚类都是基于距离的。一般情况下给出了聚类数目k，首先会产生一个初始的划分。然后用迭代的方法通过更改数据项所属的簇来提高划分的质量。一个好的划分的标准是同一个簇内的数据项彼此相似，相反地，不同簇的项有较大的区别。实现全局最优划分往往很难在复杂度忍受的范围内做到。然而，大多数应用都选取了一些启发式方法。比如像选取贪心策略的k-means和k-medoids算法，都极大地提高了划分质量，并达到了一个局部最优解。这些启发式聚类算法在中小型数据集中挖掘类似球形簇表现非常好。

（2）层次聚类层次聚类就是通过对数据集按照某种方法进行层次分解，直到满足某种条件为止。层次聚类根据划分的方法分为凝聚和分割的两种。凝聚的方法也叫做自底向上方法。它每次迭代将最相近两个项（或者组）合并形成一个新的组。直至最终形成一个组或者达到其他停止的条件。分割的方法也叫自顶向下，与凝聚的方法相反。开始的时候讲所有数据看成一个组，每一次迭代一个簇就被划分成两个小一点簇。直到最终每个项都是一个簇或者达到了某个停止条件。层次聚类可以是基于距离、基于密度、基于连接的。层次聚类有一个缺点：一旦一个凝聚或分割形成了，这个操作永远不能再更改了。这样的好处就是可以计算复杂度相对较小。

（3）基于密度的聚类很多聚类算法都是根据距离计算的。这样子的话很容易发现球形的簇，然后很难发现其他形状的簇。基于密度的算法认为，在整个样本空间点中，各目标类簇是由一群的稠密样本点组成的，而这些稠密样本点被低密度区域（噪声）分割，而算法的目的就是要过滤低密度区域，发现稠密样本点。这类算法往往重视数据项的密集程度，因此这些算法都是基于连接的。虽然是基于连接的，但是也强调了连接过程中数据项周围的密度。这样就能发现各种任意形状的聚类簇。

（4）基于网格的聚类这类算法将数据项的空间划分成有限数目的网格。所有的聚类操作都是在网格上进行的。这样最大的好处是可以计算速度相当快。因为计算过程跟数据项的数目没有关系，只与每一维网格的数目和维数有关系。对于大数据的数据挖掘问题，网格的方法效率往往会很不错。然而我觉得网格只是一种思想，这种思想往往要和其他的算法相结合才能解决好实际问题，比如聚类。

posted @ 2014-05-14 20:13 Gu Feiyang 阅读(2764) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

大肥羊的算法笔记

聚类算法笔记