2021新网银行比赛“超级传播者”总结
队员:Guass; RankFan; Alsence; 倾兰
赛题理解
本次比赛属于“超级传播者”的识别问题,即二分类(0-1)问题,所使用的的衡量标准是AUC。首先,我们要理解什么是“超级传播者”?
如何有效地识别“超级传播者”。
特征工程
数据包括两部分,一部分是用户画像表,两一部分是用户活跃表,训练集是有标签的数据,测试集无标签。
A榜训练集数据范围从2020年8月-2021年6月,A榜测试集数据为2021年7月。
B榜训练集数据范围从2020年8月-2021年6月,A榜测试集数据为2021年8月。所以切换到B榜之后,没有7月份数据的Label。
首先,观察变量是离散的还是连续的,对离散变量和连续变量分别进行处理
-
基础特征:省份;年龄,脱敏信息:根据身份证信息,
-
统计特征: 进行
groupby,做min、max、mean、count、nuique等特征 -
Lag and rolling 特征:
-
交叉特征:根据Baseline重要性特征得分,做相关的特征交叉:连在一起或者加除。
-
其他特征:Target Encoding,如何处理Target所造成的的过拟合现象,做关于离散特征的强编码特征:
Baseline
我们团队用的是LightGB模型作为Baseline
模型
树模型:LightGB、XgBoost、CatBoost
神经网络:DAE、TableNet
模型融合:Stacking 或者 平均法
浙公网安备 33010602011771号