3.6评分卡极端值的识别以及处理

1.极端值的识别

极端值的来源无非是数据差错和数据差异。

大多数情况下，极端值被删除或者被重置。但是，当极端值的观测量很大时，需要考虑分群（segments）,ie.针对每个群开发独立的评分卡。

识别方法如下：

2.用SAS实现对极端值的识别

/* identifying outliers using the mean and three standard deviations */

%extremes(dsin,varx,idvar,nsigma,dsout);

/* 输入数据集，被分析变量，ID变量，标准差倍数，输出数据集 */

/* 宏%clustol用proc fastclus创建总计为nclust的簇，参数pmin被设定一个簇中的观测值相对于数据集总体的百分比。大多数风险评分实践中，被设定为0.05~0.10 */

%ClustOL (&dsin,&varlist,&NClust,&Pmin,&DSout);

/* 输入数据集，变量列表，簇的数量，簇的最大规模，输出数据集 */

ie.首先单变量分析识别极端值，然后聚类在多元特征上识别极端值

3.极端值的处理

posted @ 2018-02-22 15:45 Jane_lau 阅读(1126) 评论(0) 收藏举报

刷新页面返回顶部

Jane_lau