特征工程
sklearn.preprocessing
1. 数据预处理
无量纲化 将特征值转化至标准正态分布 from sklearn.preprocessing import StandardScaler
无量纲化 将特征值转化为【0,1】 from sklearn.preprocessing import MinMaxScaler
归一化 将样本向量转化为‘单位向量’ from sklearn.preprocessing import Normalizer
二值化 给定阈值,将变量特征按阈值划分 from sklearn.preprocessing import Binarizer
哑编码 将定性数据定位定量数据 from sklearn.preprocessing import OneHotEncode
缺失值 缺失值填充 from sklearn.preprocessing import Imputer
数变换 log,exp from sklearn.preprocessing import FunctionTransform
2. 特征选择
过滤法filter
方差选择法:计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征 from sklearn.feather_selection import VarianceThreshold
相关系数法:计算各个特征对目标值的相关系数和P值 from sklearn.feather_selection import SelectKBest
卡方检验:检验自变量对定性因变量的相关性 from sklearn.feather_selection import SelectKBest
互信息法:自变量对因变量的相关性 from sklearn.feather_selection import SelectKBest
包装发(wrapper)
递归特征消除法:用一个基模型进行多轮训来呢,每轮训练后,消除若干权值系数的特诊,再基于新的特征集进行下一轮训练
from sklearn.feature_selection import RFE
嵌入法(embedded)
基于带惩罚项:既选择特征又降维 from ssklearn.feature_selection import SelectFromModel
基于树模型:GBDT from sklearn.feature_selection import SelectFromModel
3 . 降维
主成分分析PCA:让映射后的样本更具发散性 from sklearn.decomposition import PCA
线性判别分析LDA:让映射后的样本更具有分类性能 from sklearn.lda import LDA
posted on 2018-10-25 17:36 happygril3 阅读(149) 评论(0) 收藏 举报
浙公网安备 33010602011771号