聚类分析

聚类分为两种:对样品分类,Q型;对变量(指标)分类,R类。

Q型

样品空间的相似度——距离

常见的距离描述方法:

  1. 欧几里得距离:

    MATLAB自带函数计算

d = pdist(x)%每个行向量代表一个坐标
  1. 绝对距离:\(d(x_i,y_i)=\sum_{k=1}^p|x_{ik}-x_{jk}|\)

    d = pdist(x,'cityblock')%也叫曼哈顿距离
    
  2. 闵可夫斯基距离:\(d(x_i,y_i)=[\sum_{k=1}^p|x_{ik}-x_{jk}|^m]^{\frac{1}{m}}\)

    d = pdist(x,'minkowski',r)%r表示指数
    
  3. 切比雪夫距离:\(d(x_i,x_j)=\underset{a\leq k\leq p}{max}|x_{ik}-x_{jk}|\)

    d = max(abs(xi-xj))
    
  4. 马氏距离\(d(x_i,y_i)=\sqrt{(x_i-x_j)^T\sum^{-1}(x_i-x_j)}\) 其中\(\sum^{-1}\)指x和y的协方差矩阵的逆矩阵

    d = pdist(x,mahal)
    
S2=tril(suqareform(d)) %将数据转化为三角阵形式,更直观。

样品相似性度数

  1. 最短距离法: 以两类中距离最近的两点确定
  2. 最长距离法:以两类中距离最远的两点确定
  3. 重心法:以两类的重心确定
  4. 类平均法:以两类的样本点距离的平均确定
  5. 离差平方和法 \(D=\underset{x_k\in G_1 \cup G_2} \sum (x_k-\bar x)^T(x_k-\bar x)-\\\underset{x_k\in G_1} \sum (x_k-\bar x_1)^T(x_k-\bar x_1)-\underset{x_k\in G_2} \sum (x_k-\bar x_2)^T(x_k-\bar x_2)\)

R型

变量相似性度数

  1. 夹角余弦计算

    空间中两个列向量计算夹角余弦值 \(r_{jk}=cos\alpha_{ij}=\displaystyle {\large\frac{\sum_{t=1}^{n}x_{ti}x_{tj}}{ \sqrt{\sum_{t=1}^nx_{ti}^2} \sqrt{\sum_{t=1}^nx_{tj}^2}}}\)

2.相关系数

\(r_{jk}= \displaystyle \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}\)

变量聚类法

  1. 最长距离法 : \(d_{jk}^2=1-r_{jk}^2\) , 取最大\(d_{jk}\)
  2. 最短距离法 : 同理,取最小\(d_{jk}\).

Q,R型的区别

Q型是样品聚类,得到的参数是各个样品(向量)间的

R是变量聚类,得到的参数是各个元素(指标)间的

详见《数学建模算法与应用》第二版

P226

例题10.1.3

matlab函数

Y = linkage(X,'method')%以不同的方法生成聚类树,默认最短距离

T = cluster(Y,'maxclust',r)%创建聚类, 将对象分为r类
posted @ 2024-10-11 19:48  West11  阅读(58)  评论(0)    收藏  举报