金融信贷风控中结合‌生命周期分层‌与‌谱聚类‌


📌 一、生命周期分层阶段

  1. 定义生命周期标签

    • 新客阶段:首次申请贷款≤30天,特征为低历史行为数据。
    • 活跃阶段:稳定还款≥3期,特征为高频交易+低逾期率。
    • 衰退阶段:最近1期逾期或还款金额下降50%。
    • 流失阶段:连续3期无还款记录。
  2. 数据预处理

    • 提取用户时间序列数据:放款日期、还款记录、交易频率等。
    • 使用规则引擎打标签(如SQL/Python条件判断)。

🧮 二、谱聚类建模流程

输入数据准备

  • 特征工程

    • 数值型:收入负债比、近6月逾期次数、信用卡使用率。
    • 类别型:职业类型(One-Hot编码)、地区(Embedding)。
    • 时间型:最近一次还款间隔天数(标准化)。
  • 相似度矩阵构建

    # 使用高斯核函数计算相似度矩阵(示例)
    from sklearn.metrics.pairwise import rbf_kernel
    similarity_matrix = rbf_kernel(X, gamma=0.5)  # X为标准化后的特征矩阵
    

核心算法步骤

  1. 拉普拉斯矩阵计算

    • 度矩阵D:对角线元素为相似度矩阵每行和。
    • 归一化拉普拉斯矩阵L = I - D^(-1/2) * S * D^(-1/2)
  2. 特征分解与降维

    • Lk个最小特征值对应的特征向量,组成矩阵Uk通过肘部法则确定)。
  3. K-means聚类

    • U的行向量进行K-means聚类,得到最终分群。
# 完整谱聚类示例(Python)
from sklearn.cluster import SpectralClustering
model = SpectralClustering(n_clusters=3, affinity='rbf', gamma=0.5)
clusters = model.fit_predict(X)  # X为预处理后的特征矩阵

📊 三、业务应用示例

场景:某银行现金贷用户风险分群

  • 输入数据:10万用户,包含生命周期标签+20维特征(如收入、负债、行为数据)。
  • 谱聚类结果
    • 群组1:高收入低负债活跃客(低风险,利率下浮10%)。
    • 群组2:多头借贷衰退客(中风险,触发贷中监控)。
    • 群组3:低收入高流失倾向客(高风险,限制额度)。
  • 验证指标
    • 分群后高风险组坏账率降低18%(对比原始规则引擎)。

⚠️ 四、关键注意事项

  1. 生命周期动态更新:需按月重新计算用户阶段标签。
  2. 参数调优:谱聚类的gamman_clusters通过网格搜索确定。
  3. 解释性增强:结合SHAP值分析各特征对分群的影响。

💡 扩展建议:可叠加GBDT模型对谱聚类结果进行二次修正,提升风险预测精度。

posted @ 2025-06-11 08:34  ARYOUOK  阅读(79)  评论(0)    收藏  举报