摘要: SHAP 可以帮助你理解哪些特征以及这些特征的取值是如何将模型的预测推向错误方向的。 以下是详细的步骤和说明: 核心思想: 识别错误样本: 首先,你需要找出模型预测错误(失败)的样本,这些通常是假阳性 (False Positives - FP) 和假阴性 (False Negatives - FN 阅读全文
posted @ 2025-04-09 17:21 zedliu 阅读(434) 评论(0) 推荐(0)
摘要: import tensorflow as tf import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import 阅读全文
posted @ 2025-03-06 20:34 zedliu 阅读(57) 评论(0) 推荐(0)
摘要: ESMM模型实现详解 下面我将详细介绍如何使用mlgb库实现ESMM(Entire Space Multi-task Model)模型,用于同时处理点击预测和转化预测两个任务。我们将不使用GPU,并生成测试数据进行模型训练和评估。 1. ESMM模型原理 ESMM模型是阿里巴巴提出的一种多任务学习模 阅读全文
posted @ 2025-03-06 17:05 zedliu 阅读(341) 评论(0) 推荐(0)
摘要: Target Encoding(目标编码),这是一种强大的特征编码技术,特别适用于处理高基数分类变量。 基本原理: Target Encoding 的核心思想是用目标变量的平均值来替换分类变量的每个类别。这种方法试图捕捉每个类别与目标变量之间的关系。 工作方式: 对于分类变量的每个类别,计算该类别对 阅读全文
posted @ 2024-08-15 15:00 zedliu 阅读(1089) 评论(0) 推荐(0)
摘要: WOE编码是一种强大的特征编码方法,特别适用于二元分类问题,尤其在信用评分和风险建模领域被广泛使用。 基本原理: WOE编码的核心思想是通过比较每个类别中好客户(或正样本)和坏客户(或负样本)的分布来对分类变量进行编码。它衡量的是特征的每个类别对预测目标的影响程度。 计算公式: 对于特征X的某个类别 阅读全文
posted @ 2024-08-15 14:58 zedliu 阅读(223) 评论(0) 推荐(0)
摘要: Leave-One-Out Encoding(简称LOO编码)。这是一种针对分类变量的高级编码技术,特别适用于处理高基数(多类别)的特征。 基本原理: Leave-One-Out Encoding 是目标编码(Target Encoding)的一个变体。它的核心思想是:对于每个观察值,使用除了该观察 阅读全文
posted @ 2024-08-15 14:56 zedliu 阅读(135) 评论(0) 推荐(0)
摘要: 对于 UpliftRandomForestClassifier 模型,特别是在处理具有多个类别且分布不均匀的分类变量时,选择合适的特征编码方法非常重要。考虑到这种情况,以下是一些建议的特征编码方法: Target Encoding (目标编码) 这种方法特别适合处理高基数(多类别)的分类变量,并且能 阅读全文
posted @ 2024-08-15 14:47 zedliu 阅读(137) 评论(0) 推荐(0)