特征工程

特征工程

  1. 特征提取
  2. 特征预处理
  3. 特征降维

降维的俩种方式

特征选择

主成分分析-特征提取的一种方式

 

特征选择

定义:数据中包含冗余或无关变量(特征,属性,指标)。旨在从原因特征中

方法

Fillter(过滤式)主要探究特征本身特点,特征与特征和目标值之间关联

方差选择法:低方差特征过滤

相关系数

Embedded(嵌入式):自动选择特征(特征与目标值之间的关联)

相关系数

pearson相关系数

斯皮尔曼相关系统

线性相关 非线性相关

皮尔逊相关系数

作用

反映变量之间相关关系密切程的统计指标

绝对值【0,1】 取值【-1,1】

绝对值等于1 关系程度大

等于0 完全无关

负数 负相关

正数 正相关

绝对值 <0.4 低度相关

绝对值【0.4,0.7】 x显著相关

绝对值 【0.7,1】 高度线性相关

 


 

关系矩阵

目标与特征关系(选择r值大的特征)

特征与特征关系(r 高度线性相关只保留一个特征  共线性)

 


 

主成分分析

什么是主成分分析

尽量少损失信息的前提下实现特征降维(生成一个新的变量)

API

sklearn.decomposition.PCA(n_components=None)

  • 将数据分解为较低维数空间
  • n_components:
    • 小数:表示保留百分之多少的信息
    • 整数:减少到多少特征
  • PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features]
  • 返回值:转换后指定维度的array

算法选择

 

 

 

 

posted @ 2019-11-19 10:37  沐军  阅读(138)  评论(0编辑  收藏  举报