2 高维数据聚类
聚类是一种无监督学习的手段,其目的是使相似数据点分布在同一类中,而不同数据点处于不同类中或者噪声中。
但是在现实生活中,数据的维度属性可以高达几十,几百甚至上万维。高维数据对传统的聚类算法提出了新的挑战,这是因为传统的距离度量,密度度量,相似性度量均需要针对高维数据的特点做出调整。
一 维度灾难
维度灾难最早由理查德 贝尔曼提出,它是指在优化问题中随着空间维度的增加,分析和组织高维空间因体积指数增加的各种问题场景,现在一般指高维数据空间的“空空间” 现象,即高维空间的稀疏性。
当数据点在不同维度组成的子空间中以某种方式关联在一起时,维度灾难问题将加剧。因此高维数据聚类算法要求能够在大量高维数据集中发现不同子空间的簇,并且能够简单地,有意义的解释发现的簇。
高维数据聚类的常见问题场景
1 簇的有效性问题 一般而言,寻找隐含在数据中的簇这一过程假定数据在全部维度或者某些维度下满足映射关系。如生成模型方法假设数据集由几个概率分布函数混合生成。
2 差距趋零问题 随着维度的增加,数据点在高维空间中分布变得稀疏,当维度到达一定程度,再使用距离测度,数据点的距离趋紧于零 ,这就是所谓“差距趋零”问题。通常解决这个问题需要扩展聚类问题的局部性假设,即数据只在降维后的空间中与近邻点具有相似的簇标签。
3 有效维度问题:在针对某一事物采集数据样本时,通常要围绕不同的角度选择实体属性。然而随着数据越来越多,样本属性的有效问题也变得越来越明显。有效性问题指的是某维度与数据是否相关。有可能在同一数据中,不同的簇中有不同的相关性。
4维度相关性问题:这个问题也可认为是维度之间的正交性问题,如果两个维度存在显著的相关性,那么基于假设维度正交性算法的聚类效果是不可信的。
高维数据聚类 解决问题的几个策略
1 距离函数定义 距离和相似性度量是聚类算法的基础。
2 近邻点查询 在高维数据中按距离计算的近邻点变得不可信。
3 簇的有效性评估 类内距离,类间距离 密度稠密区域 k-近邻
4 子空间相互依赖 即进行簇划分时,要依赖数据点的有效自空间;确定簇的子空间时要先确定簇中的点。
5 时空复杂性
高维数据分析方法
通常来说,三个角度
1 假设数据集中的所有簇共享所有的自空间,即所有的簇都存在与同一个低维流行上,此时算法将整个数据集降维来剔除中相关维和无效维度,然后聚类。
2 假设不同的簇有不同的子空间;即不同的簇存在于原始数据的不同的低维流行中, 此时需要同时计算出簇和簇对应的自空间。
3 假设样本都有自己的子空间,簇通过合并相似的样本子空间的样本形成。
解决问题的策略 分为两类 降维算法和 子空间聚类算法
二 无监督降维方法
维度约简 对高维数据进行降维 即通过数学变换将原始高维属性空间转化为低维子空间 常用的两种方法时 特征选择方法选择选择原有特征集合中的子集,而特征提取方法是从原有的特征集合中通过数学变换产生的特征集。
降维算法首先给出合适的数据集结构,然后寻求结构的度量,寻求最优结构,然后在合适的降维基础上进行降维,寻求高维数据在降维空间中的最优低维表示。
在很多书中 主成分分析 多维缩放 NMF 都多有介绍
这一部分主要介绍 LLR 和 SSC
前三种线性特征提取算法基本思想如下 找到一个低维空间的基,然后将高维空间用低维空间表示
稀疏表示 (SR)也是采用使用线性组合表示数据这一思路的降维算法。而此处稀疏的意义在于 用线性组合表示数据时,系数矩阵的非零项尽量少。而且,这个算法并非时找到一个低维基底,而是每个数据使用数据字典进行线性组合表示,这个字典可以被视为一个过完备基。对给定的数据样本,数据字典的非零系数表示数据样本属于由相应基张成的子空间,而 非零系数的个数表示数据样本的子空间维度,因此,数据的稀疏性表示可以展示数据低维特性,从而实现降维。
使用向量的L0范数可以表达向量的稀疏性,向量的L0范数即向量中非零元素的个数,又因为L0范数是离散的,求解这样的目标函数是NP 难的 ,通常将L0范数松弛为向量的L1范数。向量的稀疏可以成为一维稀疏,矩阵的秩是是一种矩阵稀疏度量,成为二维稀疏 因此,在优化问题上,通常将矩阵的秩rank(X) 凸松弛为矩阵的核范数||X||* 核范数最小化问题通常具有解析解。
稀疏子空间聚类方法(SSC) 考虑每个数据的稀疏表示,基于一维稀疏性,其限定每个线性表示的非零元素尽量少,其优化问题可以表示为
MIN ||c||1
S.T X =XC CII = 0;
由于不是一个凸函数 ,通常使用梯度下降法进行迭代求解
低秩表示(LLR) 则是利用了二维稀疏性,其限定系数矩阵的秩比较小,故其优化问题的目标函数为
MIN ||C||*
S.T X =XC
通过稀疏表示和低秩表示建立高维数据在低维子空间的表示之后,利用其表示系数矩阵C 构造数据的相似度矩阵 W = (|C|+ |C|t)/2 ,以确保其对称性, 在相似度矩阵W上应用 谱聚类算法如Ncut 便可得到最终的聚类效果。
稀疏表示和低秩的几个明显优点
1 与基于矩阵分解的算法相比,SSC对于噪声点有很好的稳定性;
2 计算量 并不随着类别个数和子空间的维度数据的增长而成指数级别增长。
3 稀疏表示和低秩表示的邻居个数是自动确定的
4 稀疏表示和低秩表示即可以用于不相交的子空间,又可以用于相交的子空间。

浙公网安备 33010602011771号