分类变量的筛选

1. 为什么要筛选有效的输入变量

  (1)提高模型的稳定性,过多的输入变量带来干扰和过拟合的问题,导致模型的稳定性下降,模型效果变差。优质模型一定要遵循输入变量“少而精”的原则

  (2)提高模型预测能力的需要,过多的输入变量会产生共线性的问题。当自变量之间高度相关时,数据小小的变化,会引起模型参数严重震荡,明显降低模型的预测能力

     (3)提升运算速度及运算效率

2.变量筛选的措施

  (1)业务经验法,根据业务经验与业务判断缩小自变量的考察范围

     (2)明显无价值的变量可直接删除:如:阐述变量或者只有一个值的变量、缺失值达到95%、取值太泛的类别型变量(此类也可合并)

     (3)通过自变量之间的线性相关进行初步筛选,皮尔逊相关系数为常用算法,可用于离散变量之间,连续型变量之间,二元变量与区间型变量之间的线性关系

    r  =(x与y的协方差)/ x标准差与y的标注差的乘积 

    r 小于0.3 低度相关性 ;r在[0.3,0.5]之间中低度线性;r在[0.5,0.8]之间中度线性相关;r在[0.8.10]高度线性相关 

           如果自变量属于中度以上线性相关(大于0.6)以上的多个变量,只保留一个就可以。 

posted @ 2016-12-27 15:24  早起的鸟儿有肉吃  阅读(521)  评论(0)    收藏  举报