飞鸟各投林

导航

机器学习第2周---炼数成金-----线性回归与Logistic

重点归纳

回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)迚行预测
用途:预测,判别合理性
例子:利用身高预测体重;利用广告费用预测商品销售额;等等.
线性回归分析:一元线性;多元线性;广义线性
非线性回归分析
困难:选定变量(多元),避免多重共线性,观察拟合方程,避免过度拟合,检验模型是否合理

相关系数

 

一元线性回归模型

如何确定参数

使用平方误差和衡量预测值不真实值的差距
平方误差真实值y,预测值,则平方误差就是
寻找合适的参数,使得平方误差和最小。

 

最小二乘法:

RSS其实是关于α不β的函数,分别对α不β求偏导并令偏导等于0,就可以得出α不β的值

 

由于总体未知,采用样本值估计:

 

 

一元线性回归分析

 

多元线性回归模型

多元线性回归的核心问题:应该选择哪些变量?
一个非典型例子(薛毅书p325)
RSS(残差平方和)与R2(相关系数平方)选择法:遍历所有可能的组合选出使RSS最小,R2最大的模型
AIC(Akaike information criterion)准则不BIC(Bayesian information criterion)准则
AIC=n ln (RSSp/n)+2p
n为变量总个数,p为选出的变量个数,AIC越小越好

逐步回归
向前引入法:从一元回归开始,逐步增加变量,使指标值达到最优为止
向后剔除法:从全变量回归方程开始,逐步删去某个变量,使指标值达到最优为止
逐步筛选法:综合上述两种方法

 

广义线性模型

Logit变换

常见连接函数不逆连接函数

 

posted on 2016-04-23 16:16  飞鸟各投林  阅读(374)  评论(0编辑  收藏  举报