金融信贷风控中结合生命周期分层与谱聚类
📌 一、生命周期分层阶段
-
定义生命周期标签
- 新客阶段:首次申请贷款≤30天,特征为低历史行为数据。
- 活跃阶段:稳定还款≥3期,特征为高频交易+低逾期率。
- 衰退阶段:最近1期逾期或还款金额下降50%。
- 流失阶段:连续3期无还款记录。
-
数据预处理
- 提取用户时间序列数据:放款日期、还款记录、交易频率等。
- 使用规则引擎打标签(如SQL/Python条件判断)。
🧮 二、谱聚类建模流程
输入数据准备
-
特征工程:
- 数值型:收入负债比、近6月逾期次数、信用卡使用率。
- 类别型:职业类型(One-Hot编码)、地区(Embedding)。
- 时间型:最近一次还款间隔天数(标准化)。
-
相似度矩阵构建:
# 使用高斯核函数计算相似度矩阵(示例) from sklearn.metrics.pairwise import rbf_kernel similarity_matrix = rbf_kernel(X, gamma=0.5) # X为标准化后的特征矩阵
核心算法步骤
-
拉普拉斯矩阵计算:
- 度矩阵
D:对角线元素为相似度矩阵每行和。 - 归一化拉普拉斯矩阵
L = I - D^(-1/2) * S * D^(-1/2)。
- 度矩阵
-
特征分解与降维:
- 取
L前k个最小特征值对应的特征向量,组成矩阵U(k通过肘部法则确定)。
- 取
-
K-means聚类:
- 对
U的行向量进行K-means聚类,得到最终分群。
- 对
# 完整谱聚类示例(Python)
from sklearn.cluster import SpectralClustering
model = SpectralClustering(n_clusters=3, affinity='rbf', gamma=0.5)
clusters = model.fit_predict(X) # X为预处理后的特征矩阵
📊 三、业务应用示例
场景:某银行现金贷用户风险分群
- 输入数据:10万用户,包含生命周期标签+20维特征(如收入、负债、行为数据)。
- 谱聚类结果:
- 群组1:高收入低负债活跃客(低风险,利率下浮10%)。
- 群组2:多头借贷衰退客(中风险,触发贷中监控)。
- 群组3:低收入高流失倾向客(高风险,限制额度)。
- 验证指标:
- 分群后高风险组坏账率降低18%(对比原始规则引擎)。
⚠️ 四、关键注意事项
- 生命周期动态更新:需按月重新计算用户阶段标签。
- 参数调优:谱聚类的
gamma和n_clusters通过网格搜索确定。 - 解释性增强:结合SHAP值分析各特征对分群的影响。
💡 扩展建议:可叠加GBDT模型对谱聚类结果进行二次修正,提升风险预测精度。
自动化学习。

浙公网安备 33010602011771号