在针对变量多、纬度高的多变量训练模型时可过滤的变量

1.缺失的变量值

2.低方差

3.高线性度:可利用Pearson (continuous variables) or Polychoric (discrete variables) 相关矩阵进行判断

4反向特征消除:

在消除每个变量(n次)后,计算误差平方和(SSR)。

然后,识别那些删除后SSR增加最小的变量,最后删除它,使我们有n-1输入特性。

重复此过程,直到不能删除其他变量

5.因子分析法

因子分析都是以普通因子分析模型作为理论基础,其主要目的都是浓缩数据,

通过对诸多变量的相关性研究,可以用假想的少数几个变量(因子、潜变量)来表示原来变量(观测变量)的主要信息。

 

转:https://www.analyticsvidhya.com/blog/2015/07/dimension-reduction-methods/