posted @ 2018-11-02 21:32 高山老王 阅读(767) 评论(0) 推荐(0)
摘要:
本章将介绍建模过程中使用的变量选择方法。通过,信贷发放机构的分析人员能够获得大量的可以用于建立信用评分卡的变量。因此,选择模型中,也就是评分卡中使用的变量,不仅是一项分析任务,还与业务流程和评分卡中使用的变量,不仅是一项分析任务,还与业务流程和评分卡的实施过程密切相关。从分析角度,模型中使用的变量迭 阅读全文
摘要:
证据权重(Weight OF EVIDENCE,WOE)转换可以将LOGISTIC回归模型转换为标准评分卡转为标准评分卡格式 。本章,我们将介绍各种各种类型变量的WOE转换过程,即名义变量、顺序变量和连续变量。应用证据权重转换又称为粗分类。引入WOE转换的目的并不是为了提高模型质量。正如第7章部分案 阅读全文
posted @ 2018-11-02 21:31 高山老王 阅读(500) 评论(0) 推荐(0)
摘要:
引言LOGISTIC回归在信用评分卡开发中起到核心作用。由于其特点,以及对自变量进行了证据权重转换(WOE),LOGISTIC回归的结果可以直接转换为一个汇总表,即所谓的标准评分卡格式。通常,LOGISTIC回归可以用一个名义或顺序因变量的建模。然而,本书仅限于介绍二元因变量的情况,因为这是大多评分 阅读全文
posted @ 2018-11-02 21:30 高山老王 阅读(630) 评论(0) 推荐(0)
摘要:
引言迄今为止,本书中都是采用简单的样本数据集来解释相关概念和程序。但是,为了更深一步,就必须考虑一个对信用评分卡开发中可能遇到 的数据来说更具代表性的数据集。因此,本章将对在接下来几章中用到的样本数据集进行说明。 数据字典下面介绍的数据集并非来源于真实数据。但是,其中的字段对于信用评分中用到的真实数 阅读全文
posted @ 2018-11-02 21:29 高山老王 阅读(500) 评论(0) 推荐(0)
摘要:
本章主要回顾信用风险评分中一些常用的数据准备过程。原则上,数据准备重点关注的是:1、从不同渠道收集和整合建立评分卡所需的数据;2、清理数据中所有意外错误或被认为是极端值的取值;3、生成另外的候选因变量,期望它们可以帮助提高模型的预测力。数据准备的最终结果是建模视图以及在评分视图中使用的新变量的定义。 阅读全文
posted @ 2018-11-01 13:18 高山老王 阅读(923) 评论(0) 推荐(0)
摘要:
本章将继续探讨信用风险评分中使用的EDA过程,并重点介绍对候选自变量预测力的判断。首先,要明确区分相关性和关联性指标之间的细微差别。在统计学上,术语相关性是用来表示两个变量取值之间线性关系的一系列特定指标。被考察的变量可以是连续变量或顺序变量。其他所有形式的非线性关系都通过所谓的关联性指标进行称量。 阅读全文
posted @ 2018-10-31 21:22 高山老王 阅读(806) 评论(0) 推荐(0)
摘要:
数据描述,数据探索,或探索性数据分析(EDA),是同一事件的不同名称;即数据的初步分析。该分析包括以下全部或部分的探索:1、每个候选预测变量的统计特性和分布2、候选预测变量与状态变量之间,以及预测变量相互之间的是否存在关联性或相关性。3、检查缺失值和极端值,并评估它们对结果模型的冲击4、调查候选预测 阅读全文
posted @ 2018-10-31 14:02 高山老王 阅读(586) 评论(0) 推荐(0)
摘要:
变量类型:1、原始变量:这些变量是从数据库中提取的,概括了交易、产品所有权标识和客户人口统计资料待特征;特点:易于解释,但是可能不是最有效的;2、衍生变量指标:这些字段来源于原始变量,有明确的业务涵义。特别:需要计算,可能表现出比原始变量更好的预测力;3、分析变量:这些变量是分析人员对原始数据进行转 阅读全文
posted @ 2018-10-30 18:54 高山老王 阅读(293) 评论(0) 推荐(0)
摘要:
EDA与数据描述探索性数据分析(EDA)和数据描述是检查数据并理解其特征的一系列过程的名称。在评分卡过程中,需要进行下列分析:1)候选预测变量单变量有效预防人特征的评价,及其取值在变量范围内的分布;2)计算每个候选预测变量分类或分段条件下的违约率分布,也被称为要素分析;3)通过列联列表、关联性和相关 阅读全文
posted @ 2018-10-30 18:47 高山老王 阅读(535) 评论(0) 推荐(1)
浙公网安备 33010602011771号