特征工程

sklearn.preprocessing

1. 数据预处理

无量纲化    将特征值转化至标准正态分布  from sklearn.preprocessing import StandardScaler

无量纲化    将特征值转化为【0,1】 from sklearn.preprocessing import MinMaxScaler

归一化        将样本向量转化为‘单位向量’ from sklearn.preprocessing import Normalizer

二值化           给定阈值,将变量特征按阈值划分  from sklearn.preprocessing import Binarizer

哑编码            将定性数据定位定量数据  from sklearn.preprocessing import OneHotEncode

缺失值          缺失值填充   from sklearn.preprocessing import Imputer

数变换           log,exp  from sklearn.preprocessing import FunctionTransform

2. 特征选择

              过滤法filter

                             方差选择法:计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征   from sklearn.feather_selection import  VarianceThreshold

                             相关系数法:计算各个特征对目标值的相关系数和P值  from sklearn.feather_selection import SelectKBest

                             卡方检验:检验自变量对定性因变量的相关性  from sklearn.feather_selection import SelectKBest

                             互信息法:自变量对因变量的相关性 from sklearn.feather_selection import SelectKBest

                

 

         包装发(wrapper)

                                递归特征消除法:用一个基模型进行多轮训来呢,每轮训练后,消除若干权值系数的特诊,再基于新的特征集进行下一轮训练

                                                             from sklearn.feature_selection import RFE

          嵌入法(embedded)

                                  基于带惩罚项:既选择特征又降维   from ssklearn.feature_selection import SelectFromModel

                                  基于树模型:GBDT   from  sklearn.feature_selection import SelectFromModel

3 . 降维

            主成分分析PCA:让映射后的样本更具发散性   from sklearn.decomposition import PCA

            线性判别分析LDA:让映射后的样本更具有分类性能   from sklearn.lda import LDA

 

                                  

   


                                               

posted on 2018-10-25 17:36  happygril3  阅读(149)  评论(0)    收藏  举报

导航