特别:事先不知道类别的个数与结构。据以进行分析的数据是对象之间的相似性(similarity)和相异性(disdimilarity)的数据。
聚类分析根据分类对象不同分对Q型( 对样本进行聚类) 和R型 (对变量进行聚类)。
一、对样本(Q型)聚类大致可分两类:
1、定量变量:有数值特征
2、定性变量:并没有数据上的变化,只有性质上的差异。
(I) 有序变量:没有数量关系,只有次序关系。如一等品,二等品;优,劣;
(ii) 名义变量:既无等级关系也无数量关系。如阴,晴;男,女;
3、距离:(a)定量距离:欧氏、闵氏、切氏、马氏等
(b)定性距离:
二、对变量(Q型)进行聚类:以相似系数来度量变量之间的相似程度。
R实现:
预处理数据:数据中心化标准化: sclae( x, center = TURE ,sclae = TRUE )
(a): 聚类
x<-hclust( d, method=“ “, members= NULL)
plot( x, hang= 数值, axes= , main= , xlab= , ylab= )
x: hclust生成的对象
hang: 谱系图中各类所在的位置,hang取负值时,类从底部画起
(b):确定类的个数
rect.hclust( x, k= null, h= null, border= 数或向量)
x: hclust生成的对象
k: 类的个数
h: 谱系图中的阈值,要求分成的各类距离大于h
border: 矩形框的颜色
浙公网安备 33010602011771号