机器学习-降维(Dimensionality Reduction)
机器学习-降维
名词解释
维度灾难
在高维情形下出现的数据样本稀疏,距离计算困难等问题,是所有机器学习方法共同面临的严重阻碍,被称为‘维度灾难’。
降维
缓解维度灾难的一个重要途径是‘降维’。即通过某种数学变换,将原始高维属性空间转变为一个低维‘子空间’(subspace),在这个子空间中样本密度大幅度提高,距离计算也变得更为容易。
降维是解决维度灾难和过拟合的重要方法,除了直接的特征选择外,我们还可以采用算法的途径对特征进行筛选,线性的降维方法以 PCA 为代表,在 PCA 中,我们只要直接对数据矩阵进行中心化然后求奇异值分解或者对数据的协方差矩阵进行分解就可以得到其主要维度。非线性学习的方法如流形学习将投影面从平面改为超曲面。
降维的三种方法
- 直接降维
- 线性降维
- 非线性降维
1. 直接降维
特征提取
2. 线性降维
我们可以采用特征抽取(即降维)来减少数据集中特征的数量。降维可以认为是在尽可能保持相关信息的基础上,对数据进行压缩的一种方法。降维可以提高计算效率,同样也可帮助我们避免“维度灾难”尤其是在模型不适用于正则化处理时。
1). PCA(主成分分析)
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
主成分分析算法(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大(方差最大),以此使用较少的数据维度,同时保留住较多的原数据点的特性。
PCA降维的目的,就是为了在尽量保证“信息量不丢失”的情况下,对原始特征进行降维,也就是尽可能将原始特征往具有最大投影信息量的维度上进行投影。将原特征投影到这些维度上,使降维后信息量损失最小。
2). LDA(线性判别分析)
LDA是一种监督学习的降维技术,“投影后类内方差最小,类间方差最大”
LDA和PCA都是可以用与降低数据集维度的线性转换技巧。两者的基本概念非常相似,PCA试图在数据集中找到方差最大的正交的主成分分量的轴,LDA的目标则是发现可以最优化分类的特征子空间。但是,不同于PCA算法,LDA是有监督算法,是以最适合已有的分类作为导向。
3). MDS(多维缩放)
多维缩放也是一种经典的降维方法,其基本原则就是所有数据点对在低维空间中的距离和在高维空间中尽量保持一致,但距离度量的方法可能会不一致。
3. 非线性降维
流形学习,它的基本思想就是在高维空间中发现低维结构
流形(Manifold,局部具有欧式空间性质的空间),两点之间的距离并非欧氏距离。而是采用“局部具有欧式空间性质”的原因,让两点之间的距离近似等于依次多个临近点的连线的长度之和。通过这个方式,将多维空间“展开”到低维空间

浙公网安备 33010602011771号