特征工程

sklearn.preprocessing

1. 数据预处理

无量纲化将特征值转化至标准正态分布 from sklearn.preprocessing import StandardScaler

无量纲化将特征值转化为【0,1】 from sklearn.preprocessing import MinMaxScaler

归一化将样本向量转化为‘单位向量’ from sklearn.preprocessing import Normalizer

二值化给定阈值，将变量特征按阈值划分 from sklearn.preprocessing import Binarizer

哑编码将定性数据定位定量数据 from sklearn.preprocessing import OneHotEncode

缺失值缺失值填充 from sklearn.preprocessing import Imputer

数变换 log,exp from sklearn.preprocessing import FunctionTransform

2. 特征选择

过滤法filter

方差选择法：计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征 from sklearn.feather_selection import VarianceThreshold

相关系数法：计算各个特征对目标值的相关系数和P值 from sklearn.feather_selection import SelectKBest

卡方检验：检验自变量对定性因变量的相关性 from sklearn.feather_selection import SelectKBest

互信息法：自变量对因变量的相关性 from sklearn.feather_selection import SelectKBest

包装发（wrapper）

递归特征消除法：用一个基模型进行多轮训来呢，每轮训练后，消除若干权值系数的特诊，再基于新的特征集进行下一轮训练

from sklearn.feature_selection import RFE

嵌入法（embedded）

基于带惩罚项：既选择特征又降维 from ssklearn.feature_selection import SelectFromModel

基于树模型：GBDT from sklearn.feature_selection import SelectFromModel

3 . 降维

主成分分析PCA：让映射后的样本更具发散性 from sklearn.decomposition import PCA

线性判别分析LDA：让映射后的样本更具有分类性能 from sklearn.lda import LDA

posted on 2018-10-25 17:36 happygril3 阅读(153) 评论(0) 收藏举报

刷新页面返回顶部

happygril3