线性回归和独立性检验难点解析

推导难点

线性回归方程的推导难点:

给定一组数据\((x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\),则该组数据的样本中心为\((\bar{x},\bar{y})\),其中\(\bar{x}=\cfrac{1}{n}\sum\limits_{i=1}^n{x_i}\)\(\bar{y}=\cfrac{1}{n}\sum\limits_{i=1}^n{y_i}\)

可知,线性回归直线方程为[具体计算公式,题目中往往直接给定]:$$\widehat{y}=\widehat{b}x+\widehat{a}$$

其中回归系数\(\hat{b}\)的部分推导过程如下:

\[\hat{b}=\cfrac{\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}}{\sum\limits_{i=1}^n{(x_i-\bar{x})^2}}=\cfrac{\sum\limits_{i=1}^n{x_iy_i-n\cdot\bar{x}\cdot\bar{y}}}{\sum\limits_{i=1}^n{x_i^2-n\cdot\bar{x}^2}} \]

回归系数\(\hat{a}\)的计算公式:

\[\hat{a}=\bar{y}-\hat{b}\cdot\bar{x} \]

  • 上述公式中的部分难点变形说明如下:

\[\begin{align*}\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}&=\sum\limits_{i=1}^n{(x_iy_i-x_i\bar{y}-\bar{x}y_i+\bar{x}\bar{y})}\\&=\sum\limits_{i=1}^n{x_iy_i}-\bar{y}\sum\limits_{i=1}^n{x_i}-\bar{x}\sum\limits_{i=1}^n{y_i}+\bar{x}\bar{y}\sum\limits_{i=1}^n{1}\\&=\sum\limits_{i=1}^n{x_iy_i}-n\bar{x}\bar{y}-n\bar{x}\bar{y}+n\bar{x}\bar{y}\\&=\sum\limits_{i=1}^n{x_iy_i}-n\bar{x}\bar{y}\end{align*} \]

仿照这个推导思路,你能推导\(\sum\limits_{i=1}^n{(x_i-\bar{x})^2}=\sum\limits_{i=1}^n{x_i^2-n\bar{x}^2}\)吗?

提示:从2016和2022高考试题解答来看,以下公式是需要记忆的:

\(\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}\)\(=\)\(\sum\limits_{i=1}^n{x_iy_i}-n\bar{x}\bar{y}\)\(\sum\limits_{i=1}^n{(x_i-\bar{x})^2}=\sum\limits_{i=1}^n{x_i^2-n\bar{x}^2}\)

计算难点

【案例】某题目给定\(\sum\limits_{i=1}^8{x_i}=480\)\(\sum\limits_{i=1}^8{y_i}=480\)\(\sum\limits_{i=1}^8{x_1y_i}=22500\)\(\sum\limits_{i=1}^8{x_i^2}=30400\)

可以计算\(\bar{x}=60\)\(\bar{y}=45\),代入\(\hat{b}=\cfrac{\sum\limits_{i=1}^n{x_iy_i-n\cdot\bar{x}\cdot\bar{y}}}{\sum\limits_{i=1}^n{x_i^2-n\cdot\bar{x}^2}}\)来计算

计算细节:\(\hat{b}=\cfrac{\sum\limits_{i=1}^8{x_iy_i-8\cdot\bar{x}\cdot\bar{y}}}{\sum\limits_{i=1}^8{x_i^2-8\cdot\bar{x}^2}}\)

\(=\cfrac{22500-8\times60\times 45}{30400-8\times 60\times60}=\cfrac{225-8\times6\times 4.5}{304-8\times 6\times6}\)

\(=\cfrac{225-36\times6}{304-8\times 6\times6}=\cfrac{225-216}{304-288}=\cfrac{9}{16}\)

表格解读

  • 独立性检验中的表格的解读:
\(P\)(\(\chi^2\)\(\geq\)\(k_0\)) \(0.500\) \(0.400\) \(0.250\) \(0.150\) \(0.100\) \(0.050\) \(0.025\) \(0.010\) \(0.005\) \(0.001\)
\(\;\;k_0\;\;\) \(0.455\) \(0.708\) \(1.323\) \(2.072\) \(2.706\) \(3.841\) \(5.084\) \(6.635\) \(7.897\) \(10.828\)
  • 独立性检验的数学原理:

\(H_0:\)先假设两个变量\(A\)\(B\)是无相关关系的,\(\chi^2\)的观测值\(k_0\)越大,则与之对应的假设事件\(H_0\)成立的概率越小,那么\(H_0\)不成立的概率越大,即两个变量相关的概率越大。

  • 使用实例:比如计算得到\(\chi^2=8\),则有\(8>7.897\),而\(7.897\)对应概率值为\(0.005\),故有\(1-0.005=99.5\%\)以上的把握认为“两个变量有关”,但还是有低于\(0.5\%\)的判断出错可能性,并不是百分之百。

案例分析

涉及线性回归计算中的几点技巧[实验验证]数学实验验证

【案例】某公司第二、第三季度的用电量与月份线性相关,数据统计如下:

月份\(x\) 4 5 6 7 8 9
用电量\(y\) 6 16 27 55 46 56

[备注说明]此题目在计算之前,需要先剔除其中的无效数据\((7,55)\)

依照以下的几个层次的问题,逐步理解:

①能不能直接利用数据进行计算?

②能不能对数据先做预处理,即每一组数据都减去\((6,27)\)

③能不能对数据先做预处理,即每一组数据都减去\((6,16)\)

④能不能对数据先做预处理,即每一组数据都减去\((\overline{x},\overline{y})\)

典例剖析

【对统计大数据的预处理】【2019高三理科数学第二次月考第18题】

某地随着经济发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:

年份\(x\) 2011 2012 2013 2014 2015
储蓄存款\(y\)(千亿元) 5 6 7 8 10

为便于计算,将上表做以处理,令\(t=x-2010\)\(z=y-5\),得到下表2:

时间代号\(t\) 1 2 3 4 5
\(z\) 0 1 2 3 5

附可能用到的公式:线性回归直线为\(\widehat{y}=\widehat{b}x+\widehat{a}\)

\(\widehat{b}=\cfrac{\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}}{\sum\limits_{i=1}^n{(x_i-\bar{x})^2}}=\cfrac{\sum\limits_{i=1}^n{x_iy_i-n\cdot\bar{x}\cdot\bar{y}}}{\sum\limits_{i=1}^n{x_i^2-n\cdot\bar{x}^2}}\)

\(\widehat{a}=\bar{y}-\widehat{b}\cdot\bar{x}\).

(1)求\(z\)关于\(t\)的线性回归方程。

分析:需要先注意\(z\rightarrow y\;\;\)\(t\rightarrow x\;\;\),然后将所给的公式翻译为关于\(z\)\(t\)的公式,这涉及到数学素养,公式的正向迁移。

由表格可知,\(\bar{t}=3\)\(\bar{z}=2.2\)\(\sum\limits_{i=1}^5{t_iz_i}=45\)\(\sum\limits_{i=1}^5{t_i^2}=55\)

\(\widehat{b}=\cfrac{\sum\limits_{i=1}^n{t_iz_i-n\cdot\bar{t}\cdot\bar{z}}}{\sum\limits_{i=1}^n{t_i^2-n\cdot\bar{t}^2}}\)

\(=\cfrac{45-5\times 3\times 2.2}{55-5\times 9}=1.2\)

\(\widehat{a}=\bar{z}-\widehat{b}\cdot\bar{t}=2.2-3\times 1.2=-1.4\)

\(\hat{z}=1.2t-1.4\)

(2)通过(1)中的方程,求出\(y\)关于\(x\)的线性回归方程。

分析:将\(t=x-2010\)\(z=y-5\)代入\(\hat{z}=1.2t-1.4\)

得到\(y-5=1.2\times (x-2010)-1.4\)

\(\hat{y}=1.2x-2408.4\)

(3)用所求的线性回归方程预测,到\(2020\)年底,该地的储蓄存款余额可达到多少?

分析:当\(x=2020\)时,代入\(\hat{y}=1.2x-2408.4\)

得到\(\hat{y}=1.2\times 2020-2408.4=15.6(千亿元)\)

【2017-18高三理科高考冲刺模拟试题9第15题】已知由样本数据点集合\(\{(x_i,y_i)\mid i=1,2,\cdots,n\}\)求得的回归直线方程为\(\hat{y}=1.5x+0.5\),且\(\bar{x}=3\),现发现两个数据点\((1.1,2.1)\)\((4.9,7.9)\)误差较大,去除后重新求得的回归直线\(l\)的斜率为\(1.2\),那么,当\(x=2\)时,\(y\)的估计值是______。

分析:由于样本中心点\((\bar{x},\bar{y})\)必在回归直线上,先代入计算得到\(\bar{y}=5\)

即原数据的样本中心点为\((3,5)\),故\(\sum\limits_{i=1}^{n}x_i=3n\)\(\sum\limits_{i=1}^{n}y_i=5n\)

由于\(1.1+4.9=6\)\(2.1+7.9=10\),去除两个样本点后,

新的样本中心点的坐标\(\bar{x}=\cfrac{3n-6}{n-2}=3\)\(\bar{y}=\cfrac{5n-10}{n-2}=5\)

故新的样本中心点\((3,5)\)必在回归直线\(\hat{y}=1.2x+b\)上,

则有\(5=1.2\times 3+b\),则\(b=1.4\)

即重新求得的回归直线\(l\)\(\hat{y}=1.2x+1.4\)

\(x=2\)时,代入计算得到\(\hat{y}=1.2\times 2+1.4=3.8\)

法2:特殊化策略,将样本数据点的个数认定为\(5\)个,其他的计算仿上完成。

posted @ 2018-08-06 11:20  静雅斋数学  阅读(904)  评论(0编辑  收藏  举报
您已经努力一段时间了
活动活动喝杯咖啡吧
                  ----静雅斋