分类变量的筛选

1. 为什么要筛选有效的输入变量

　　（1）提高模型的稳定性，过多的输入变量带来干扰和过拟合的问题，导致模型的稳定性下降，模型效果变差。优质模型一定要遵循输入变量“少而精”的原则

　　（2）提高模型预测能力的需要，过多的输入变量会产生共线性的问题。当自变量之间高度相关时，数据小小的变化，会引起模型参数严重震荡，明显降低模型的预测能力

（3）提升运算速度及运算效率

2.变量筛选的措施

　　（1）业务经验法，根据业务经验与业务判断缩小自变量的考察范围

（2）明显无价值的变量可直接删除：如：阐述变量或者只有一个值的变量、缺失值达到95%、取值太泛的类别型变量（此类也可合并）

（3）通过自变量之间的线性相关进行初步筛选，皮尔逊相关系数为常用算法，可用于离散变量之间，连续型变量之间，二元变量与区间型变量之间的线性关系

　　　　r =（x与y的协方差）/ x标准差与y的标注差的乘积

　　　　r 小于0.3 低度相关性；r在[0.3,0.5]之间中低度线性；r在[0.5,0.8]之间中度线性相关；r在[0.8.10]高度线性相关

如果自变量属于中度以上线性相关（大于0.6）以上的多个变量，只保留一个就可以。

posted @ 2016-12-27 15:24 早起的鸟儿有肉吃阅读(521) 评论(0) 收藏举报

刷新页面返回顶部

早起的鸟儿有肉吃