机器学习-聚类-k-Means算法笔记

聚类的定义：

聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小，它是无监督学习。

聚类的基本思想：

给定一个有N个对象的数据集，构造数据的k个簇，k≤n。满足下列条件：
　　1. 每一个簇至少包含一个对象
　　2. 每一个对象属于且仅属于一个簇
　　3. 将满足上述条件的k个簇称作一个合理划分
基本思想：对于给定的类别数目k，首先给出初始划分，通过迭代改变样本和簇的隶属关系，使得每一次改进之后的划分方案都较前一次好。

k-Means算法：

k-Means算法，也被称为k-平均或k-均值，是一种广泛使用的聚类算法，或者成为其他聚类算法的基础。
假定输入样本为S=x₁,x₂,...,x_m，则算法步骤为：
　　1. 选择初始的k个类别中心μ₁μ₂…μ_k
　　2. 对于每个样本xi，将其标记为距离类别中心最近的类别，即：

　　3. 将每个类别中心更新为隶属该类别的所有样本的均值

　　4. 重复最后两步，直到类别中心的变化小于某阈值。

K-means的图解过程可以看一下这个作者所写的样例。

距离计算方法总结

不同距离的度量其聚类结果不同，以下是距离度量的一些方法：

（1）闵可夫斯基距离Minkowski/欧式距离

（2）杰卡德相似系数(Jaccard)

（3）余弦相似度(cosine similarity)

（4）Pearson相似系数

（5）相对熵(K-L距离)

（6）Hellinger距离（该距离满足三角不等式，是对称、非负距离）

　　余弦相似度与Pearson相似系数

　　　　n维向量x和y的夹角记做θ，根据余弦定理，其余弦值为：

　　　　这两个向量的相关系数是：　　　　

　　相关系数即将x、y坐标向量各自平移到原点后的夹角余弦！
 　这即解释了为何文档间求距离使用夹角余弦——因为这一物理量表征了文档去均值化后的随机向量间相关系数。

K-means具有如下优点：

（1）当簇近似为高斯分布时，它的效果较好。

（2）收敛速度快，往往只需要5~6步即可达到收敛。

（3）算法复杂度为O(tkn)。 $n$

K-means也有一些缺点：

（1）需要注意的是初始簇心的选择有时候会影响最终的聚类结果，由于聚类算法为无监督学习，人们事先无法确定到底需要分多少个簇，也就是说k值无法提前确定。所以，实际操作中，我们一般会选用不同的数据作为初始簇心，多次执行k-means算法，为了解决这个问题，k-means++算法应运而生。

（2）对噪声和孤立点影响敏感。我们可以看出K-means中means表示平均值，而平均值往往对噪声敏感，一个离群点往往会对整个结果造成很大影响。

（3）不适合于发现非凸形状的簇或者大小差别很大的簇。

（4）在簇的平均值可被定义的情况下才能使用，可能不适用于某些应用

对k-Means的思考：

k-Means将簇中所有点的均值作为新质心，若簇中含有异常点，将导致均值偏离严重。以一维数据为例：
1. 数组1、2、3、4、100的均值为22，显然距离“大多数”数据1、2、3、4比较远
2. 改成求数组的中位数3，在该实例中更为稳妥。
3. 这种聚类方式即k-Mediods聚类(K中值距离)

二分k-Means算法（Bisecting k-Means）：

由于传统的KMeans算法的聚类结果易受到初始聚类中心点选择的影响，因此在传统的KMeans算法的基础上进行算法改进，对初始中心点选取比较严格，各中心点的距离较远，这就避免了初始聚类中心会选到一个类上，一定程度上克服了算法陷入局部最优状态。
二分KMeans(Bisecting KMeans)算法的主要思想是：首先将所有点作为一个簇，然后将该簇一分为二。之后选择能最大限度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。以此进行下去，直到簇的数目等于用户给定的数目k为止。以上隐含的一个原则就是：因为聚类的误差平方和能够衡量聚类性能，该值越小表示数据点越接近于他们的质心，聚类效果就越好。所以我们就需要对误差平方和最大的簇进行再一次划分，因为误差平方和越大，表示该簇聚类效果越不好，越有可能是多个簇被当成了一个簇，所以我们首先需要对这个簇进行划分。

k-means++算法：

　　k-means++是k-means的变形，通过小心选择初始簇心，来获得较快的收敛速度以及聚类结果的质量。

　　先随机选择一个数据项作为第一个初始的簇心（当然，最终我们要选择 $k$

$k$

$k$ ），计算数据集中每个数据项应该归类的簇，以及距离

（2）将这 $n$ 个距离求和，得到sum(Dis_i)，然后随机选取一个小于sum(Dis_i)的值Random

（3）令Random依次减去 $D i s_{i}$ $k$ 所对应的数据项就是新的簇心。

综上，k-means++算法步骤如下：

（1）随机选择一个数据项，作为第一个簇心

（2）根据选择下一个簇心的操作方法（上面列出的3步），选择下一簇心

（3）重复步骤2，直到得到全部的 $k$ $k$

K-Means||算法：

解决K-Means++算法缺点而产生的一种算法；主要思路是改变每次遍历时候的取样规则，并非按照K-Means++算法每次遍历只获取一个样本，而是每次获取K个样本，重复该取样操作O(logn)次__(n是样本的个数)__，然后再将这些抽样出来的样本聚类出K个点，最后使用这K个点作为K-Means算法的初始聚簇中心点。实践证明：一般5次重复采用就可以保证一个比较好的聚簇中心点。

算法步骤：
（1）在N个样本中抽K个样本，一共抽logn次，形成一个新的样本集，一共有Klogn个数据。
（2）在新数据集中使用K-Means算法，找到K个聚簇中心。
（3）把这K个聚簇中心放到最初的样本集中，作为初始聚簇中心。
（4）原数据集根据上述初始聚簇中心，再用K-Means算法计算出最终的聚簇。