简单线性回归分析(其中操作方法和数据解释适用于多元线性回归)
一元线性回归预测法
(其中操作方法和数据解释适用于多元线性回归)
重要目录锚定位:
一元线性回归预测法是分析一个因变量与一个自变量之间的线性关系的预测方法
以一个公司的不同地区的广告费和销售额当例子,来预测广告费和销售额之间的数据关系,(x,y),x表示广告费,y表示销售额。图例。
图表说明一般高的广告费,一般销售额也高,但是也有例外情况。
但是图示大多数的点近似的位于一条线上。(当然没有一条直线通过这些点,但是合理的情况是有条线通过或者接近大部分的点)
图中的点是观测数据(x,y),广告费x是自变量,销售额Y是因变量。
简单的线性回归认为x,y直接是线性关系,构造一个线性函数
Y = b0 + b1x;
b0是截距,b1是斜率。我们假设观察数据(x,y)位于这个线上,那么根据x广告费就可以预测出销售额y的数据。
但是其实这个线位于大部分点的附近,这些点不是直接在线上。我们引入一个新概念:噪声e,来解释这个模型,假设噪声e是我们在构造模型的时候无法估量的因素
因为噪声e的存在,才导致这些点不在直线上。
Y = b0 + b1x + e;
在公式中b0,b1被称为回归系数,这两个参数影响着直线和观察数据的差距,如果这两个参数计算的得当,那么将会使大部分的数据和直线特别接近,因此我们要
重点计算b0,b1的数据。
我们把观测值和预测值之间的差额叫做残差值。
观测值是已经发生的真实数据,预测值是根据线性函数预测出来的值
假设我们设置b0=41.0,b1=29.0
然后引入评估参数,残差平方和。b0,b1的选择就是要保证残差平方和最小。
用Excel计算线性回归
以excel2010为例子。
在“数据”Tab中找到“数据分析”这个标签(/如果没有出现这个标签,需要手动加载,在文件的“选项”中,打开“加载项”,找到其中的“分析工具库”,然后点击“转到”,就会出现了)
然后
在回归计算面板中,
Y表示因变量,就是销售额,
X表示自变量,就是广告费用。
点击输入框后面的图标,出现这个输入框,
用鼠标选中自变量或者因变量列的数据,从第一行描述信息开始选中(按住鼠标左键,向下圈选。)
然后勾选下面置信区间之类的参数,输出到新的工作表中,
最近点击确定,就可以生成结果
结果中数据的意义
1.回归系数。
有了回归系数就可以构造回归模型函数,在excel输出结果的第三部分的第二列,coefficient就是回归系数,就是前面说的b0,b1的值
第一行是b0截距,广告费用是b1,如果是多元回归,这个地方会有多行数据,第一行还是截距,然后其余都是自变量b的系数
2.标准误差
标准误差就是噪音的表示值,在excel结果的第一部分,=9.10
3.Y的期望回归函数
假设回归模型函数是:Y = b0 + b1X
带入系数 Y = 48.597 * X + 13.823 。
4.自由度degree of freedom
t分布中,自由度越大,t分布越接近正态分布。
自由度dof = 观测样本数量- 自变量数量 - 1 = 14 -1 -1 =12
在excel结果第二部分的第一例,第二行数据,残差就是dof
5.回归系数的标准误差和置信区间
由于噪声的影响。回归系数和真实数据是有误差的,标准误差excel已经计算出来了
假设真实数据和预测数据的差值是bm,我们要计算我们预测值和真实的值的置信区间【b-bm,b + bm】
通过这个公式我们可以有95%的概率认为真实数据位于这个置信区间内。
计算回归系数b%的置信区间公式如下:
[bm - c * Sbm,bm + c * Sbm]
其中bm是excel结果中的回归系数,Sbm是这个回归系数的标准误差,c是一个常量,由自由度dof和b%决定,通过查询dmd教程的A2可以查找这个参数对应的值
6.根据残差,画出直方图,判断回归模型是否有异方差性
以这个残差输出结果为例
在excel中数据分析中有直方图这个工具,和回归在一起
输入区域就是残差的这列数据,
关键有个接收区域:接受区域也是一列数据,需要自己组织,这些数据的必须从小到大升序排列。
最小值和最大值就是残差的最小最大区间,可以调整为一个计算方便的整数,比如这个例子中最小的残差是-6279.15,我们采用-6300,同理最大的值采用6300
然后根据分组的大小或者这些数据间距的大小,自己设置从最小数据到最大数据每个数据之间的差值。如果要分10组,就是(最大值 - 最小值) / 10.
我们这个例子分8组,差距是1800,这样构造了接收值。
然后勾选图表输出和输出区域得到结果
如果直方图基本是正态分布,就说明这个回归模型不具备异方差性。
****
其实接收区域也可以为空,这个时候程序自己计算分组和接收值,
不输入接受区域,excel默认分了4组,
浙公网安备 33010602011771号