9.主成分分析

一、用自己的话描述出其本身的含义:

 

1、特征选择

有许多不同的方法可用于特征选择。其中最重要的是:

1.过滤方法=过滤我们的数据集,只取包含所有相关特征的子集(例如,使用 Pearson 相关的相关矩阵)。

2.遵循过滤方法的相同目标,但使用机器学习模型作为其评估标准(例如,向前/向后/双向/递归特征消除)。我们将一些特征输入机器学习模型,评估它们的性能,然后决定是否添加或删除特征以提高精度。因此,这种方法可以比滤波更精确,但计算成本更高。

3.嵌入方法。与过滤方法一样,嵌入方法也使用机器学习模型。这两种方法的区别在于,嵌入的方法检查 ML 模型的不同训练迭代,然后根据每个特征对 ML 模型训练的贡献程度对每个特征的重要性进行排序。

2、PCA

 PCA(Principal Components Analysis),中文名是主成分分析,是一种数据处理方法,其最主要的目的是“用最小的信息损失对数据进行降维”,以便进行进一步数据分析。

其基本原理很清晰:

1、找到一个向量,使得原数据点在该向量上的投影最为分散(也就是方差最大),则该向量被称为为第一主成分PC1。

2、在与PC1相互垂直的向量中,选择一个向量,使得原数据点在该向量上的投影最为分散,则该向量被称为PC2。

3、以此类推,n维数据有n个主成分。

稍加思考,我们会发现以上过程实际上等同于”旋转坐标轴“,数据信息不会有损失。然而我们的目的是降维,所以基本上会根据需要只保留PC1或前几个主成分,因为他们保留了大部分的原数据信息(这里的信息指原数据的总方差(total variance),也就是原数据在坐标轴各个轴上的投影的方差的总和)

二、并用自己的话阐述出两者的主要区别

PCA是指 Principal Components Analysis,译为主要成分分析。用于减少数据集的维度,同时保持数据集中使方差贡献最大的特征。改变了原来特征的形式。 

特征选取是从包含多个特征的数据集中挑选出几个特征作为实际使用的数据集,用于训练模型。没有改变特征的形式。

posted @ 2020-04-28 18:22  椰梨  阅读(417)  评论(0编辑  收藏  举报