线性回归和独立性检验难点解析
推导难点
线性回归方程的推导难点:
给定一组数据\((x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\),则该组数据的样本中心为\((\bar{x},\bar{y})\),其中\(\bar{x}=\cfrac{1}{n}\sum\limits_{i=1}^n{x_i}\),\(\bar{y}=\cfrac{1}{n}\sum\limits_{i=1}^n{y_i}\)
可知,线性回归直线方程为[具体计算公式,题目中往往直接给定]:$$\widehat{y}=\widehat{b}x+\widehat{a}$$
其中回归系数\(\hat{b}\)的部分推导过程如下:
回归系数\(\hat{a}\)的计算公式:
- 上述公式中的部分难点变形说明如下:
仿照这个推导思路,你能推导\(\sum\limits_{i=1}^n{(x_i-\bar{x})^2}=\sum\limits_{i=1}^n{x_i^2-n\bar{x}^2}\)吗?
提示:从2016和2022高考试题解答来看,以下公式是需要记忆的:
\(\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}\)\(=\)\(\sum\limits_{i=1}^n{x_iy_i}-n\bar{x}\bar{y}\), \(\sum\limits_{i=1}^n{(x_i-\bar{x})^2}=\sum\limits_{i=1}^n{x_i^2-n\bar{x}^2}\),
计算难点
可以计算\(\bar{x}=60\),\(\bar{y}=45\),代入\(\hat{b}=\cfrac{\sum\limits_{i=1}^n{x_iy_i-n\cdot\bar{x}\cdot\bar{y}}}{\sum\limits_{i=1}^n{x_i^2-n\cdot\bar{x}^2}}\)来计算
计算细节:\(\hat{b}=\cfrac{\sum\limits_{i=1}^8{x_iy_i-8\cdot\bar{x}\cdot\bar{y}}}{\sum\limits_{i=1}^8{x_i^2-8\cdot\bar{x}^2}}\)
\(=\cfrac{22500-8\times60\times 45}{30400-8\times 60\times60}=\cfrac{225-8\times6\times 4.5}{304-8\times 6\times6}\)
\(=\cfrac{225-36\times6}{304-8\times 6\times6}=\cfrac{225-216}{304-288}=\cfrac{9}{16}\)
表格解读
- 独立性检验中的表格的解读:
\(P\)(\(\chi^2\)\(\geq\)\(k_0\)) | \(0.500\) | \(0.400\) | \(0.250\) | \(0.150\) | \(0.100\) | \(0.050\) | \(0.025\) | \(0.010\) | \(0.005\) | \(0.001\) |
---|---|---|---|---|---|---|---|---|---|---|
\(\;\;k_0\;\;\) | \(0.455\) | \(0.708\) | \(1.323\) | \(2.072\) | \(2.706\) | \(3.841\) | \(5.084\) | \(6.635\) | \(7.897\) | \(10.828\) |
- 独立性检验的数学原理:
\(H_0:\)先假设两个变量\(A\),\(B\)是无相关关系的,\(\chi^2\)的观测值\(k_0\)越大,则与之对应的假设事件\(H_0\)成立的概率越小,那么\(H_0\)不成立的概率越大,即两个变量相关的概率越大。
- 使用实例:比如计算得到\(\chi^2=8\),则有\(8>7.897\),而\(7.897\)对应概率值为\(0.005\),故有\(1-0.005=99.5\%\)以上的把握认为“两个变量有关”,但还是有低于\(0.5\%\)的判断出错可能性,并不是百分之百。
案例分析
涉及线性回归计算中的几点技巧[实验验证]数学实验验证
月份\(x\) | 4 | 5 | 6 | 7 | 8 | 9 |
---|---|---|---|---|---|---|
用电量\(y\) | 6 | 16 | 27 | 55 | 46 | 56 |
[备注说明]此题目在计算之前,需要先剔除其中的无效数据\((7,55)\);
依照以下的几个层次的问题,逐步理解:
①能不能直接利用数据进行计算?
②能不能对数据先做预处理,即每一组数据都减去\((6,27)\)?
③能不能对数据先做预处理,即每一组数据都减去\((6,16)\)?
④能不能对数据先做预处理,即每一组数据都减去\((\overline{x},\overline{y})\)?
典例剖析
某地随着经济发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:
年份\(x\) | 2011 | 2012 | 2013 | 2014 | 2015 |
---|---|---|---|---|---|
储蓄存款\(y\)(千亿元) | 5 | 6 | 7 | 8 | 10 |
为便于计算,将上表做以处理,令\(t=x-2010\),\(z=y-5\),得到下表2:
时间代号\(t\) | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
\(z\) | 0 | 1 | 2 | 3 | 5 |
附可能用到的公式:线性回归直线为\(\widehat{y}=\widehat{b}x+\widehat{a}\),
\(\widehat{b}=\cfrac{\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}}{\sum\limits_{i=1}^n{(x_i-\bar{x})^2}}=\cfrac{\sum\limits_{i=1}^n{x_iy_i-n\cdot\bar{x}\cdot\bar{y}}}{\sum\limits_{i=1}^n{x_i^2-n\cdot\bar{x}^2}}\),
\(\widehat{a}=\bar{y}-\widehat{b}\cdot\bar{x}\).
(1)求\(z\)关于\(t\)的线性回归方程。
分析:需要先注意\(z\rightarrow y\;\;\),\(t\rightarrow x\;\;\),然后将所给的公式翻译为关于\(z\)和\(t\)的公式,这涉及到数学素养,公式的正向迁移。
由表格可知,\(\bar{t}=3\),\(\bar{z}=2.2\), \(\sum\limits_{i=1}^5{t_iz_i}=45\), \(\sum\limits_{i=1}^5{t_i^2}=55\),
故\(\widehat{b}=\cfrac{\sum\limits_{i=1}^n{t_iz_i-n\cdot\bar{t}\cdot\bar{z}}}{\sum\limits_{i=1}^n{t_i^2-n\cdot\bar{t}^2}}\),
\(=\cfrac{45-5\times 3\times 2.2}{55-5\times 9}=1.2\),
\(\widehat{a}=\bar{z}-\widehat{b}\cdot\bar{t}=2.2-3\times 1.2=-1.4\)。
故\(\hat{z}=1.2t-1.4\)。
(2)通过(1)中的方程,求出\(y\)关于\(x\)的线性回归方程。
分析:将\(t=x-2010\),\(z=y-5\)代入\(\hat{z}=1.2t-1.4\),
得到\(y-5=1.2\times (x-2010)-1.4\),
即\(\hat{y}=1.2x-2408.4\)。
(3)用所求的线性回归方程预测,到\(2020\)年底,该地的储蓄存款余额可达到多少?
分析:当\(x=2020\)时,代入\(\hat{y}=1.2x-2408.4\),
得到\(\hat{y}=1.2\times 2020-2408.4=15.6(千亿元)\)。
分析:由于样本中心点\((\bar{x},\bar{y})\)必在回归直线上,先代入计算得到\(\bar{y}=5\),
即原数据的样本中心点为\((3,5)\),故\(\sum\limits_{i=1}^{n}x_i=3n\),\(\sum\limits_{i=1}^{n}y_i=5n\),
由于\(1.1+4.9=6\),\(2.1+7.9=10\),去除两个样本点后,
新的样本中心点的坐标\(\bar{x}=\cfrac{3n-6}{n-2}=3\),\(\bar{y}=\cfrac{5n-10}{n-2}=5\),
故新的样本中心点\((3,5)\)必在回归直线\(\hat{y}=1.2x+b\)上,
则有\(5=1.2\times 3+b\),则\(b=1.4\),
即重新求得的回归直线\(l\)为\(\hat{y}=1.2x+1.4\);
当\(x=2\)时,代入计算得到\(\hat{y}=1.2\times 2+1.4=3.8\)。
法2:特殊化策略,将样本数据点的个数认定为\(5\)个,其他的计算仿上完成。