Loading

聚类学习.5

简单介绍了系统聚类/层次聚类。

算法篇——系统聚类(或层次聚类)

一、使用前
问:系统聚类为啥用的不多?
答:系统聚类适合小样本数据集,对于大样本系统聚类的运算复杂度成倍叠加,这导致这个方法用的时候不多。现在大多数都是在分析中等量样本集和大数据样本集。

二、系统聚类
系统聚类的原理,比如在一个平面,上面有5个点,首先把每一个点看做一类,我们就有5个类簇,每个类簇有1个点。如下图:
在这里插入图片描述

第一次:
找到两个距离最近的点,如图点3与点5,把这两个分到一类。那么现在呢 就有4个类簇。如下图:
在这里插入图片描述
第二次:
从这里开始,根据新合并的类簇整体到其他点的距离怎么求,诞生了各种各样的系统聚类方法
定义:
①四个类name:1,2,4,3+5
②dist(name1,name2):类name1与类name2的距离
最短距离法:例:3+5与4的距离=min{dist(4,3),dist(4,5)}
最长距离法:例:3+5与4的距离=max{dist(4,3),dist(4,5)}
类平均法:例:3+5与4的距离=[dist(4,3)+dist(4,5)]/n(n为分子相加的距离个数)
重心法:在每一个类簇找一个中心来代替整体,重心法大多情况是取均值,比如一个类簇两个点((3,5),(7,1))他们的重心就是((3+7)/2,(5+1)/2)
等等,还有很多方法可以拓展。

三、研究现状

系统聚类适合小样本数据集,所以现在对它做的研究大多为小样本。比如药方组成成分,鉴别某植物的产地,那么这些小样本究竟有多小?大概在多则50左右,少则7,8,个。

posted @ 2024-09-19 11:54  绯色鱼  阅读(16)  评论(0)    收藏  举报