聚类

概述

在'无监督学习'(unsupervised learning)中, 训练样本的标记信息是未知的, 目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律, 为进一步的数据分析提供基础。

“聚类”(clustering)算法是“无监督学习”算法中研究最多、应用最广的算法,它试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)。

 

性能度量

通常我们希望聚类结果的“簇内相似度”(intra-cluster similarity)高且“簇间相似度”(inter-cluster similarity)低。

聚类性能度量大致有两类:一类是将聚类结果与某个“参考模型”(reference model)进行比较,称为“外部指标”(external index);另一类是直接考查聚类结果而不利用任何参考模型。称为“内部指标”(internal index)。

1、外部指标:

2、内部指标

 

距离计算

1、距离所具有的性质:

2、有序属性和无序属性

3、有序属性的距离计算

4、无序属性的计算

 

5.混合属性的计算

6、非度量距离

 

原型聚类

原型聚类亦称基于原型聚类(prototype-based clustering),原型指的是样本空间中具有代表性的点。基于原型的定义是每个对象到该簇的原型的距离比到其他簇的原型的距离更近。在K-means中,聚类中心就是原型,就是具有代表性的点,一个样本距离哪一个原型近,就划分为哪一簇。
常见的原型聚类算法有: K-means;LVQ(learning vector quantization,学习向量量化);高斯混合聚类。
1、K-means

关于k值选择和均指向量初始化推荐该博客:https://blog.csdn.net/shennongzhaizhu/article/details/51871891

2、LVQ(learning vector quantization,学习向量量化)

与k均值算法类似,“学习向量量化”(Learning Vector Quantization,LVQ)也是试图找到一组原型向量来刻画聚类结构,LVQ假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。

过程描述:

首先对原型向量进行初始化,每种原型向量初始化,是从相应类别中随机选一个样本

然后对原型向量进行迭代优化,在每一轮迭代中,算法随机选取一个有标记训练样本,找出与其距离最近的原型向量,并根据两者的类别标记是否一致来对原型向量进行更新。

最后,在学得一组原型向量后,即可实现对样本空间X的簇划分。对任意样本x,它将被划入于其距离最近的原型向量所代表的簇中。

核心思想:

3、高斯混合聚类

与k均值、LVQ用原型向量来刻画聚类结构不同,高斯混合聚类采用概率模型来表达聚类原型。

简述做法:高斯混合模型是由k个高斯模型加权所得,权值系数看作一个样本属于相应高斯模型的概率,因此k也是类别(簇)数目。通过使用EM算法求解一个高斯混合模型,然后对样本进行判别分类,类别也是簇标记,这个过程算分类也算聚类。

高斯混合模型求解请移步我的另一篇博客:https://www.cnblogs.com/CJT-blog/p/10165586.html

 

 

密度聚类

此类算法假设聚类结构能通过样本分布的紧密程度确定。下面介绍一种代表性算法DBSCAN

 

个人理解如下:

1-7是核心对象集合初始化

10-24找划分簇,其中

 16-19找核心对象的密度直达

15-20找密度相连

14-21找之前随机核心对象的密度可达

注意Q是一个队列结构,先进先出,15行其实会遍历Q

 

层次聚类

层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。

AGNES(AGglomerative NESting)是一种采用自底向上聚合策略的层次聚类算法。它先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数,这里的关键是如何计算聚类簇之间的距离。可根据如下式子计算距离:

显然,最小距离由两个簇的最近样本决定,最大距离由两个簇的最远样本决定,而平均距离则有两个簇的所有样本共同决定。当聚类簇距离分别由这三个距离计算时,AGNES算法被相应地称为“单链接”(single-linkage)、“全链接”(complete-linkage)或“均链接”(average-linkage)算法。AGNES算法描述如下:

 

posted @ 2019-01-10 17:33  深夜十二点三十三  阅读(1553)  评论(0编辑  收藏  举报