10 期末大作业

1.选择使用什么数据,有哪些字段,多大数据量。

本次实验数据集来自和鲸社区的信用卡评分模型构建数据 ,以数据集cs-training.csv为分析主体,其中共有15万条记录,11列属性。

SeriousDlqin2yrs: 是否逾期。
RevolvingUtilizationOfUnsecuredLines:信用卡和个人信贷额度的总余额
age:年龄
NumberOfTime30-59DaysPastDueNotWorse:过去2年,借款人逾期30-59天的次数
DebtRatio:负债比率
MonthlyIncome:月收入
NumberOfOpenCreditLinesAndLoans:未偿还贷款数量(汽车贷款或抵押贷款等分期付款)和信贷额度(如信用卡)。
NumberOfTimes90DaysLate:借款人逾期90天或以上的次数。
NumberRealEstateLoansOrLines:抵押贷款和房地产贷款的数量。
NumberOfTime60-89DaysPastDueNotWorse:过去2年,借款人逾期60-89天的次数
NumberOfDependents:家庭中的家属人数(配偶,子女等)。

2.准备分析哪些问题?(8个以上)

(1)读取HDFS文件系统中的数据文件,生成DataFrame
(2)修改列名
(3)本次信用卡逾期的总体统计
(4)年龄与本次信用卡逾期的结合统计
(5)两次逾期记录与本次信用卡逾期的结合统计
(6)房产抵押数量与本次信用卡逾期的结合统计
(7)家属人数与本次信用卡逾期的结合统计
(8)月收入与本次信用卡逾期的结合统计

3.当前进展。

已完成70%左右

posted @ 2021-06-11 14:44  Ling3  阅读(94)  评论(0编辑  收藏  举报