机器学习线性回归

1.多元线性回归方程：

2.模型：（KNN、K-Means没有模型）

3.损失函数：衡量系数w的模型拟合训练集时产生的信息损失的大小，以此衡量w优劣。

　　　　追求让损失函数最小化的参数组合，即

4.L2范式形式的损失函数：SSE误差平方和/RSS残差平方和

5.最小二乘法：通过最小化真实值和预测值之间的RSS来求解参数的方法。

　　其中逆矩阵存在的充要条件是特征矩阵不存在多重共线性

6.重要参数（非必填）：fit_intercept是否计算截距，默认True

　　　　　　　　　　normalize特征矩阵X在进入回归之前将会被减去均值（中心化）并除以L2范式（缩放），默认False

　　　　　　　　　　copy_X默认True，将在X.copy()上操作

　　　　　　　　　　n_jobs用于计算的作业数，默认None。如果输入-1，则全部CPU用来计算

7.重要属性：coef_线性回归方程中估计出的系数

　　　　　 intercept_截距项

8.评估指标：均方误差MSE（是否预测正确数值），衡量预测值和真实值的差异。　　RSS=M*MSE

　　　　　　绝对均值误差MAE

　　　　　　R^2（是否拟合足够信息，越接近1越好），衡量1-模型没有捕捉到的信息量占真实标签中所带信息量的比例

9.ESS、TSS、RSS、R^2关系

　　ESS解释平方和，TSS总离差平方和，TSS=RSS+ESS

　　　　R^2可为负，因为TSS=RSS+ESS不一定永远成立，为负时模型拟合糟糕，不适用线性回归

10.多重共线性：精确相关+高度相关

　　逆矩阵存在的充要条件特征矩阵不存在多重共线性→矩阵行列式不为0→矩阵满秩

11.相关性衡量指标：多重共线性——方差膨胀因子VIF

　　　　　　　　　线性相关——皮尔逊相关系数

　　　　　　　　非线性相关——斯皮尔曼相关系数

12.处理多重共线性方法：使用统计学的先验思路、使用向前逐步回归（存在相关性的特征加惩罚项）、改进线性回归（岭回归、Lasso）

13.岭回归：在损失函数上加上正则项L2范式，损失函数为，α越大越不容易受到共线性影响

14.岭回归参数：alpha、fit_intercept、normalize、copy_X、max_iter、tol、solver、random_state

15.选最佳正则化参数取值：岭迹图（不建议使用）

　　　　　　　　　　　　交叉验证的岭回归

16.交叉验证岭回归RidgeCV

　　重要参数：alphas（可传入备选元组）、scoring（评估指标，默认R^2）、store_cv_score（是否保留结果，默认false）、cv（交叉验证模式，默认None留一交叉验证）　　只有cv为none时store_cv_score才能为true

　　重要属性：alpha_（查看选中的α）、cv_values_（调用交叉验证结果，被保留才可以调用）

　　重要接口：score

17.Lasso：最小绝对收缩和选择算子，L1范式，损失函数为

　　Lasso无法解决特征之间“精确相关”问题

18.Lasso和岭回归的区别：岭回归为L2范式，Lasso为L1范式

　　　　　　　　　　　　Lasso无法解决精确相关

　　　　　　　　　　　　Lasso可将系数压缩到0（特征选择工具首选）

19.Lasso参数：alpha、positive（为true时要求Lasso回归出的系数必须为正数，保证α一定增加来控制正则化程序）

20.线性与非线性：对于回归问题，数据若能分布为一条直线，则是线性的，否则是非线性；对于分类问题，数据分布若能使用一条直线来划分类别，则是线性可分的，否则是线性不可分的。

21.线性模型拟合非线性数据：分箱，即离散化

　　from sklearn.preprocessing import KBinsDiscretizer

　　其中encode="onehot" 用哑变量方式离散化

　　用交叉验证选择最优箱数

22.另一种线性处理非线性：使用多项式回归　　多项式变化使线性模型升维

23.多项式回归参数：degree多项式中的次数，默认为2(最多7-8)

　　　　　　　　　 interaction_only是否只产生交互项，默认false

　　　　　　　　　 include_bias是否产出与截距项相乘的x0（如果线性回归中fit_intercept=false则可以为true，否则会产生一项无意义的特征项）

posted on 2019-06-25 15:10 数分小白小姐姐阅读(550) 评论(0) 收藏举报

刷新页面返回顶部

导航

机器学习线性回归