Cluster 技术总结

DNA microarray分析中,聚类分析(clustering analysis)是非常重要的一步。今天学习了Pan Ning Tan的introduction to data mining ,进行一下总结:

1. 聚类分析的分类

1) 按照是否有层次:

层次聚类(hierarchical clustering)

划分聚类(partitioninng clustering)

2)按照是否依据模型:

non-parameter clustering:没有默认的assumption整个数据集是由哪几种分布mix的

model-based clustering: 基于模型的聚类认为不同的‘类’有不同的‘分布’,同一个类的分布是相同的, 往往采用一种个期望最大化算法(EM):先设定初始值,然后计算每个对象属于每个分布的概率,得到这些概率后再根据特定公式加权(概率为权重)求出最大化该期望的新的参数估计,直到参数不再改变。

model-based clustering如果恰好fit哪个数据的话,会有更好的performance。

2. 聚类分析的特性

如K-means往往适用于球形的类。假如类的形状是‘月牙’,K-means往往效果不好;

DBSCAN则适用于密度不同的类。同时,DBSCAN不适用于高维数据。

3. 评估聚类的效果

1) 一些参数,如SSE, 凝聚度、分离度; sihouette plot,median split sihouette 

2)  correlation heatmap: 理想效果是沿对角线呈一块一块

3)重取样(resampling: 如bootstrap):我们看到cluster后的sample在一块,并不能代表它们之间很稳定,很可能再加上几个sample,它们便不在一起了。通过resampling,看这些sample在一起的概率多少,从而判断聚类的稳定性。

 

 

posted on 2013-04-18 10:45  Forever_YCC  阅读(446)  评论(0编辑  收藏  举报

导航