数据降维

1. 数据降维

1.1 为什么要数据降维

1. 维度灾难:
很难有一个简洁的模型在高维空间中依旧具有鲁棒性,而随着模型复杂度的增加,为保证结果同样的精度和准确性,所需要的数据也需要极大增加,而高维空间的数据本身具备稀疏性,可想而知如果真要这么做,需要的数据是难以估计的。当然并不是所有的高维空间都不好,比如核方法,有些非线性的规律就需要映射到更高维的空间中去才能更好地解决,只不过核方法提供了一种更为简洁的运算。
2. 查询和计算的准确性和效率:
准确性的话维度越高相对来说的确精度越低,一是数据度量本身的不准确性增加,而是计算时比如浮点数或者舍入等情况越多的发生,对准确性会有影响。而效率的影响更是显而易见的。
3. 去噪:
降维带来的去噪效果主要来源于两个方面,一是上面所说的计算时准确性同样的原因。二就是我们将维度降下来意味着我们只保留最主要的规律和信息,而那些轻微的细小的相关性一部分而是噪音的影响,另外一些则是我们并不希望关注的数据本身的弱关联性,这一点我们可以从信号处理的领域理解,我们通常认为我们感兴趣的信号具有较大的方差,噪声具有较小的方差,信号与噪声之比称为信噪比,信噪比越大意味着数据质量越好,反之信噪比越小意味着数据质量越差。
4. 数据压缩:
这主要是从存储的角度考虑
5. 可视化:
如果有可视化的需要的话,降低到2D、3D的维度比较适合进行可视化展示

1.2 数据降维的方法

按照是否线性和是否有监督来看大概可以可以分为这些:

  • 线性无监督:PCA, ICA, SVD, LSA(LSI)
  • 线性有监督:LDA, CCA, PLS
  • 非线性无监督:LLE, Isomap, MDR
  • 非线性有监督: Learning with Non-linear kernels
    在这里,先来从整体上理解矩阵分解是如何实现降维的,因为以矩阵分解为基础的方法有很多,我们重点介绍主成分分析(Principal Component Analysis),理解它的理论依据,然后我们将以PCA为基础理解Fisher LDA、SVD和LSA,最后我们将简要涉及LLE和Isomap。

详细链接:https://zhuanlan.zhihu.com/p/74501834

2. PCA 和 PLS 的对比介绍

参考链接1:https://www.jianshu.com/p/4528aaa6dc48
参考链接2:https://www.jianshu.com/p/6a9eaa7574f6

posted @ 2022-03-11 10:35  青梧成林2022  阅读(528)  评论(0)    收藏  举报