聚类分析方法

一、层次聚类(系统聚类)

原理:合并法(分解法方向相反算法相同,SPSS只提供合并法)

1、将每一个样本作为一类,如果是k个样本就分k成类

2、按照某种方法度量样本之间的距离,并将距离最近的两个样本合并 为一个类别,从而形成了k-1个类别

3、再计算出新产生的类别与其他各类别之间的距离,并将距离最近的 两个类别合并为一类。这时,如果类别的个数仍然大于1,则继续重 复这一步,直到所有的类别都合并成一类为止

4、总是先把离得最近的两个类进行合并

5、合并越晚的类,距离越远

6、事先并不会指定最后要分成多少类,而是把所有可能的分类都列出, 再视具体情况选择一个合适的分类结果

 缺点:如果样本数大,输入的值超级大,一般不采用这个方法。

二、K-means聚类(快速聚类)

1、确定要分的类别数目K (实际应用中可选择8类,如果某些类别中包含的样本明显很少,可减少类别数再次进行聚类,尝试合适的类别数)

2、确定K个类别的初始聚类中心 (使用SPSS进行聚类时,一般由系统自动指定初始聚类中心K)

3、根据确定的K个初始聚类中心,依次计算每个样本到K个聚类中心的距离欧氏距离,并根据距离最近的原则将所有的样本分到 事先确定的K个类别中 

4、根据所分成的K个类别,计算出各类别中每个变量的均值, 并以均值点作为新的K个类别中心。根据新的中心位置,重新计算每 个样本到新中心的距离,并重新进行分类 

5、重复第4步,直到满足终止聚类条件为止

迭代次数达到研究者事先指定的最大迭代次数(SPSS隐含的迭代次数 是10次,如果超过10此仍未收敛可调大这个数值)

新确定的聚类中心点与上一次迭代形成的中心点的最大偏移量小于指定的量(SPSS隐含的是0.02) 

注意:

1、若原始值差异过大,则需要事先标准化

三、两步聚类法(一般在SPSS中使用k-means即可)

四、聚类方法的选择

1、首先看数据的类型,如果参与分类的变量是连续变量,层次聚类法 、K-均值聚类法、以及两步聚类法都是适用的。如果变量中包括离 散变量(计数变量),则需要将先对离散变量进行连续化处理,否则应 该使用两步聚类法。当数据量较少时(比如小于100),三种方法都可 以选用,当数据量较多时(比如大于1000),则应该考虑选用K-均值 聚类法或两步聚类法

2、要看分类的对象。如果是对样本分类,三种方法都可用;如果是对变量分类则应选择层次聚类法(至少SPSS的程序是这样)

posted @ 2017-06-28 16:29  积水成渊数据分析  阅读(4295)  评论(0编辑  收藏  举报