特征工程系列:特征预处理(下)
原文 ---------------https://www.cnblogs.com/purple5252/p/11343769.html -----------------------------
2 统计变换
数据分布的倾斜有很多负面的影响,我们可以使用特征工程技巧,利用统计或者数学变换来减轻分布倾斜的影响。使原本密集的区间的值尽可能的分散,原本分散的区间的值尽量的聚合。
这些变换函数都属于幂变换函数族,通常用来创建单调的数据变换,他们的主要作用在于它能帮助稳定方差,始终保持分布接近于正态分布并使得数据与分布的平均值无关。
1 log变换。
总结
1 特征预处理是数据预处理过程的重要步骤,是对数据的一个标准的处理,几乎所有的数据处理过程都会涉及该步骤
2 由于树模型 RF GBDT Xgboost 等对特征数值幅度不敏感,可以不进行无量纲化和统计变换处理
由于树模型依赖于样本处理来进行学习,所以也可以不进行分类特征编码
3 依赖样本距离来学习模型 如lr svm 深度学习等
对于数值型特征需要进行无量纲化
对于一些长尾分布的数据特征,可以做统计变换,是的模型能更好优化
对于线性模型,特征分箱能提升模型表达能力。
4 对于数值型特征进行特征分箱可以让模型对异常数据有很强的鲁棒性,模型也会更加稳定。

浙公网安备 33010602011771号