特征工程
https://blog.csdn.net/weishiym/article/details/79629329
(1)数据清洗
1. 清洗异常数据
2. 采样
数据不均匀
样本权重
(2)预处理
1. 单个特征 :
归一化
离散化
Dummy Coding
缺失值
数据变换 :log,指数,Box-Cox
2. 多个特征
2.1 降维:PCA,PLA
2.2 特征选择
2.2.1 Filter: 自变量与目标变量之间的关联
相关系数,卡方检验,信息增益,互信息
2.2.2 wrapper: 通过目标函数来判定是否加入一个变量
产生特征子集:
完全搜索
启发式搜索
随机搜索:GA,SA
2.2.3 Embedded :学习器自动选择特征
正则化:
L1:Lasso
L2:Ridge
决策树:熵,信息增益
深度学习
2.3 衍生变量 :对原始数据加工,生成有商业意义的变量
posted on 2018-07-31 10:18 happygril3 阅读(110) 评论(0) 收藏 举报
浙公网安备 33010602011771号