9、主成分分析
一、用自己的话描述出其本身的含义:
1、特征选择
2、PCA
1、特征选择:从m个原始特征中选择n个最有效特征以降低数据集维度的过程来使得系统的特定指标最优化。
2、PCA:数据中会使方差最大化的方向,它是在对特征数据执行投影或压缩时,最大化的降低信息丢失。
二、并用自己的话阐述出两者的主要区别
1、特征选择是从已经存在的特征中,选取携带信息最多的,选完之后的特征依然具有可解释性,我们仍然能知道特征在源数据的哪个位置,代表数据的含义是什么。而PCA是将已经存在的特征进行压缩,降维完成后的特征不再是源数据中的任何一个特征,而是通过某种方式组合起来的特征,新的特征矩阵不再具有可读性,属于特征创造的一种。
2、PCA不适合用于探索特征和标签的关系的模型比如线性回归,因为无法解释新特征与标签的关系,所以在线性回归中用特征选择。