机器学习第八堂课20210422

聚类

应用在无监督学习中。

X=[X1,X2,X3,,,,Xn]

上节课讲的降维实际是把每个数据的特征维度降低了，通过对数据本身进行分析，进行降维。

聚类，是在数据量这个角度通过方法，对数据进行分析，找到K个代表，可以代表整个n个数据，n个数据归类到K个代表中。

聚类任务相关概念

定义：依据样本的相似度或距离，将其划分为若干个通常不相交的子集（“簇”，cluster）的数据分析问题。

目的：既可以用于发现数据内在的分布结构，也可作为分类等其他学习任务的数据处理过程。

应用：例子1购物网站上，用户的消费类性分析（书籍、服饰......）；例子2根据各个时刻统计的车流量，定义高峰时刻。

聚类的模型表达：

硬聚类：样本只从属于一个簇。例如Kmeans算法。软聚类：样本以概率从属于多个簇。例如高斯混合模型。

样本的相似度度量：用距离衡量相似度时，距离越小样本越相似。

距离的性质：非负性、同一性、对城性、直递性。

闵可父斯基距离：p=2欧式距离、p=1曼哈顿距离。

夹角余弦：夹角余弦越大，样本越相似。

簇的距离：簇内的距离、簇间的距离。有以下四种典型的距离情况。

平均距离：含义：簇类C1和C2的距离等于两个簇类所有样本对的距离平均。

最远距离

层次聚类方法

主要特点：在不同层次

算法过程：

层次聚类，是一种很直观的算法。顾名思义就是要一层一层地进行聚类，可以从下而上地把小的cluster合并聚集，也可以从上而下地将大的cluster进行分割。所谓从下而上地合并cluster，具体而言，就是每次找到距离最短的两个cluster，然后进行合并成一个大的cluster，直到全部合并为一个cluster。整个过程就是建立一个树结构。

基于原型的方法

K-Means聚类

目标：给定N个样本的集合，K均值聚类的目标是将N个样本划分为K个不同的类或者簇中。

模型表达：用C表示划分...

目标函数最小化样本与其所属簇的中心之间的距离的总和。

K-Means的不足，簇的数目K需要人为指定；对簇中心的初始化比较敏感，不能保证收敛到全局最优。

基于密度的方法

参考链接：https://baike.baidu.com/item/%E9%97%B5%E6%B0%8F%E8%B7%9D%E7%A6%BB/22677930?fromtitle=%E9%97%B5%E5%8F%AF%E5%A4%AB%E6%96%AF%E5%9F%BA%E8%B7%9D%E7%A6%BB&fromid=23665511&fr=aladdin

https://blog.csdn.net/qq_33384379/article/details/103579917

https://blog.csdn.net/ycy0706/article/details/90439245

https://blog.csdn.net/u014694994/article/details/94972668

https://zhuanlan.zhihu.com/p/70414047

posted @ 2021-04-22 10:03 白雪儿 Views(91) Comments(0) 收藏举报

刷新页面返回顶部

白雪儿

the crystal snow flakes dance in the air.