19.9.13
1.K-均值聚类:https://baike.baidu.com/item/K均值聚类算法/15779627?fr=aladdin
2.PCA:https://www.cnblogs.com/lliuye/p/9156763.html
https://blog.csdn.net/weixin_34104341/article/details/85904561----本文写的很好
基本思想:构造原变量的一系列线性组合形成几个综合指标,以去除数据的相关性,并使低维数据最大程度保持原始高维数据的方差信息。
主成分个数的确定:
贡献率:第i个主成分的方差在全部方差中所占比重,反映第i个主成分所提取的总信息的份额。
累计贡献率:前k个主成分在全部方差中所占比重
主成分个数的确定:累计贡献率>0.85
相关系数矩阵or协方差阵?
当涉及变量的量纲不同或取值范围相差较大的指标时,应考虑从相关系数矩阵出发进行主成分分析;
对同度量或取值范围相差不大的数据,从协方差阵出发.
相关系数矩阵消除了量纲的影响。
3.降维:https://www.cnblogs.com/xbinworld/archive/2011/11/24/pca.html
4.RM-MEDA:https://www.jianshu.com/p/4afb35e2777c
5.SOM:https://www.cnblogs.com/surfzjy/p/7944454.html
6.流形:https://blog.csdn.net/chl033/article/details/6107042
流形是线性子空间的一种非线性推广,流形学习是一种非线性的维数约简方法
假设:高维数据位于或近似位于潜在的低维流行上
思想:保持高维数据与低维数据的某个“不变特征量”而找到低维特征表示
7.为什么协方差矩阵的最大特征向量能使得误差较小?
因为协方差矩阵表示向量两两之间的相似度,可以理解为向量之间的关系信息。协方差矩阵保存的信息越多,误差越小。怎么保存更多信息呢?需要说明的是特征值代表特征向量的权重,所以挑最大的几个特征向量就能保存更多的信息。

浙公网安备 33010602011771号