一、用自己的话描述出其本身的含义:

1、特征选择

特征选择,能人为地剔除不相关、冗余、没有差异刻画能力的特征,从而达到减少特征个数、减少训练或者运行时间、提高模型精确度的作用。

例如:删除低方差的特征。

2、PCA

当样本特征过多,部分特征对预测结果有影响,如果直接剔除特征会导致预测不准确,因此引入了PCA。

PCA是一种分析,简化数据集的技术,它是基于方差使数据维度降低,损失少量的信息,但不是直接剔除特征。可以理解为:一个数据的主成分反应了一个新的降维后的特征空间,数据被降维后得到新的数据集,新的数据集在降维后的空间内的分布,只反应了原始数据在原始特征空间中的分布的一部分情况。

 

二、并用自己的话阐述出两者的主要区别

特征选择:特征选择在特征数量较少时使用,它直接减少特征数量,可以说是原特征的子集;

PCA:主成分分析PCA是在特征较多时使用(上百个),经过反应降维后产生一个新的特征数据集,即将原本的特征数据集映射为一个新的特征数据集,新的数据集反应了在原始特征空间中的分布的一部分情况。