Fork me on GitHub

用信息值进行特征选择(Information Value)


Posted by c cm on January 3, 2014

特征选择(feature selection)或者变量选择(variable selection)是在建模之前的重要一步。数据接口越来越多的今后,数据集的原始变量、衍生变量会越来越多,如何从中选取subset适用到模型之上在实际数据应用中十分重要。

信息值information value用来做特征选择最常用在计算信用评分卡时,是用来表示每一个变量对目标变量来说有多少“信息”的量。

对于一个分类变量性别,其计算过程如下:

Group Good Bad pctlGood pctlBad WoE MIV
325 19 36.89% 31.15% 0.1692 0.0097
556 42 63.11% 68.85% -0.0871 0.0050
          IV 0.0147

其中,

WoE = ln(pctlGood/pctlBad)

MIV = WoE * (pctlGood - pctlBad)

IV = \sum MIV

例中性别变量的信息值为0.0147,表示性别对目标变量的预测能力非常弱。

一般说来,信息值0.02以下表示与目标变量相关性非常弱。0.02-0.1很弱;0.1-0.3一般;0.3-0.5强;0.5-1很强。

使用信息值最大的优点是简单快速。缺点包括:对于数值型变量需要分类预处理;无法确定iv值在多少以上便保留变量;无法识别相关性强的变量,可能同时保留造成冗余;无法识别变量间关系。

Reference:

Building Credit Scorecards Using Credit Scoring for SAS
Characteristics Selection Using Information Value

posted @ 2016-11-29 16:05  stardsd  阅读(1609)  评论(0编辑  收藏  举报