特征工程

https://blog.csdn.net/weishiym/article/details/79629329

 

(1)数据清洗   

          1. 清洗异常数据

           2. 采样       

                       数据不均匀

                       样本权重

(2)预处理

           1. 单个特征  :

                             归一化

                             离散化

                             Dummy Coding

                              缺失值

                              数据变换 :log,指数,Box-Cox

            2. 多个特征

                             2.1 降维:PCA,PLA

                             2.2 特征选择

                                             2.2.1 Filter:  自变量与目标变量之间的关联

                                                                 相关系数,卡方检验,信息增益,互信息

                                             2.2.2 wrapper:  通过目标函数来判定是否加入一个变量

                                                                      产生特征子集:

                                                                                         完全搜索

                                                                                         启发式搜索

                                                                                           随机搜索:GA,SA

                                             2.2.3 Embedded :学习器自动选择特征

                                                                            正则化:

                                                                                        L1:Lasso

                                                                                        L2:Ridge

                                                                             决策树:熵,信息增益

                                                                              深度学习

                             2.3 衍生变量  :对原始数据加工,生成有商业意义的变量

posted on 2018-07-31 10:18  happygril3  阅读(110)  评论(0)    收藏  举报

导航