工业蒸汽量预测

MSE   sklearn中调用mean_squared_error() 函数

回归模型算法: 线性回归,岭回归,LASSO回归,决策树,梯度提升树

 

 

数据探索————

双变量分析  

  (1) 连续-连续  散点图,相关性(np.corrcoef)

  (2)类比-类别  双向表,柱状图,卡方检验

  (3)类别-连续  小提琴图 (Seaborn violinplot函数)、

  异常值的检测  箱线图 seaborn.boxplot

  变量变换  解决取值分布不均(对数,平方根,变量分组)

  新变量生成  派生变量,哑变量

KDE 分布图  对比同一特征变量在训练集测试集中的分布情况,是否一致

replot  绘制相关关系图像到 FacetGrid 的图像级别接口。

线性回归是基于正态分布的,需要将数据转换使其符合正态分布(Box-Cox)(线下)  

  线上部署只需采用训练数据的归一化

特征工程————

流程:

  去掉无用特征,去除冗余特征,新特征生成/特征转换(数值化,类别转换,归一化),特征处理(异常值,最大值,最小值,缺失值)

  1.特征处理: preprocessing 库

  2.特征降维

      特征选择-> 特征降维(PCA LDA)

      特征选择的三种方法

        过滤  相关系数,卡方检验,信息增益

        包装  迭代:产生特征子集

        嵌入  正则化:1. LASSO 2.RIDGE  决策树  深度学习  

  python中函数  varianceThreshold  SelectKBest  RFE  SelectFromModel

模型训练————

   泛化

  正则化(防止过拟合)

    L1  元素绝对值之和

    L2  向量元素绝对值平方和再开方

    L-q  元素绝对值的q次幂和累加和在1/q次幂

  

posted @ 2022-11-17 22:05  dunimaa  阅读(75)  评论(0)    收藏  举报