工业蒸汽量预测
MSE sklearn中调用mean_squared_error() 函数
回归模型算法: 线性回归,岭回归,LASSO回归,决策树,梯度提升树
数据探索————
双变量分析
(1) 连续-连续 散点图,相关性(np.corrcoef)
(2)类比-类别 双向表,柱状图,卡方检验
(3)类别-连续 小提琴图 (Seaborn violinplot函数)、
异常值的检测 箱线图 seaborn.boxplot
变量变换 解决取值分布不均(对数,平方根,变量分组)
新变量生成 派生变量,哑变量
KDE 分布图 对比同一特征变量在训练集测试集中的分布情况,是否一致
replot 绘制相关关系图像到 FacetGrid 的图像级别接口。
线性回归是基于正态分布的,需要将数据转换使其符合正态分布(Box-Cox)(线下)
线上部署只需采用训练数据的归一化
特征工程————
流程:
去掉无用特征,去除冗余特征,新特征生成/特征转换(数值化,类别转换,归一化),特征处理(异常值,最大值,最小值,缺失值)
1.特征处理: preprocessing 库
2.特征降维
特征选择-> 特征降维(PCA LDA)
特征选择的三种方法
过滤 相关系数,卡方检验,信息增益
包装 迭代:产生特征子集
嵌入 正则化:1. LASSO 2.RIDGE 决策树 深度学习
python中函数 varianceThreshold SelectKBest RFE SelectFromModel
模型训练————
泛化
正则化(防止过拟合)
L1 元素绝对值之和
L2 向量元素绝对值平方和再开方
L-q 元素绝对值的q次幂和累加和在1/q次幂
浙公网安备 33010602011771号