变量的相关性和统计案例
前言
变量的相关性
-
变量间的关系:常见变量之间的关系有两类:一类是函数关系,比如\(y=ax+b\),是确定性关系,体现为因果关系;另一类是相关关系,比如\(\hat{y}=\hat{a}+\hat{b}x\),是非确定性关系,不一定体现为因果关系,也可能体现为伴随关系;
-
正相关和负相关
角度一:从形上判断,利用散点图,读图能力;角度二:从数上计算,利用回归直线的斜率\(\hat{b}\)判断,或利用相关系数\(r\)判断;
关于\(r\)的知识,当\(r>0\)正相关,当\(r<0\)负相关;当\(|r|\leq 1\)且\(|r|\)越接近1,相关程度越强,当\(|r|\leq 1\)且\(|r|\)越接近0,相关程度越弱。在实践中,常认为当\(|r|\leq 0.25\)时,认为相关程度很弱,当\(|r|\ge 0.75\)时,认为相关程度很强;当\(|r|=1\)时,相关关系变为函数关系,所有的样本点都在某一条直线上。
回归方程与回归分析
-
最小二乘法
-
回归方程
\(\hat{y}=\hat{b}x+\hat{a}\),其中\(\hat{b}\)、\(\hat{a}\)称为回归系数,其值通过给定的公式计算;\(x\)称为解释变量,\(\hat{y}\)称为预报变量。
- 回归分析
定义:对具有相关关系的两个变量进行统计分析的一种常用方法。
样本点中心\((\bar{x},\bar{y})\)一定在回归直线上,但是样本点不一定在回归直线上,比如说法“至少有一个样本点在回归直线上”是错误的。
- 相关参数:相关系数
残差平方和,相关指数\(R^2\),超纲。
独立性检验
-
分类变量
-
\(2\times 2\)列联表
-
独立性检验
难点解释
- 线性回归系数\(\hat{b}\)的推导过程和解释
- 独立性检验中的表格的解读:
- 对统计得到的大数据的预处理
运算技巧
- 相关性检验的\(K^2\)的计算中,先化简,后计算。
比如\(K^2=\cfrac{105\times(10\times30-20\times45)^2}{55\times 50\times30\times75}\)
\(=\cfrac{21\times(300-900)^2}{11\times 50\times30\times75}\)
\(=\cfrac{21\times600\times600}{11\times 50\times30\times75}\)
\(=\cfrac{21\times12\times20}{11\times 1\times 1\times75}\)
\(=\cfrac{7\times12\times20}{11\times 1\times 1\times25}\)
\(=\cfrac{7\times12\times4}{11\times 1\times 1\times5}\)
\(=\cfrac{336}{55}=6.11\)
再比如\(K^2=\cfrac{1200\times(500\times280-200\times220)^2}{700\times 500\times720\times480}\) [注意:若能提取公因数200,平方运算就简单多了]
\(=\cfrac{1200\times(200\times 25\times28-200\times220)^2}{700\times 500\times720\times480}\)
\(=\cfrac{1200\times 200^2\times (700-220)^2}{700\times 500\times720\times480}\)
\(=\cfrac{1200\times 200\times 200\times 480\times 480}{700\times 500\times720\times480}\)
\(=\cfrac{1200\times 200\times 200\times 480}{700\times 500\times720}\)
\(=\cfrac{1200\times 2\times 2\times 48}{7\times 5\times72}\)
\(=\cfrac{1200\times 2\times 2\times 2}{7\times 5\times3}\)
\(=\cfrac{400\times 2\times 2\times 2}{7\times 5}\)
\(=\cfrac{80\times 2\times 2\times 2}{7}\)
\(=\cfrac{640}{7}\)
- 近似计算的要求和题目中已知数据的精确度保持一致。
典例剖析
| 月份\(x\) | 2011 | 2012 | 2013 | 2014 | 2015 |
|---|---|---|---|---|---|
| 储蓄存款\(y\)(千亿元) | 5 | 6 | 7 | 8 | 10 |
为便于计算,将上表做一处理,令\(t=x-2010\),\(z=y-5\),得到下表2:
| 时间代号\(t\) | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| \(z\) | 0 | 1 | 2 | 3 | 5 |
附可能用到的公式:线性回归直线为\(\widehat{y}=\widehat{b}x+\widehat{a}\),
\(\widehat{b}=\cfrac{\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}}{\sum\limits_{i=1}^n{(x_i-\bar{x})^2}}=\cfrac{\sum\limits_{i=1}^n{x_iy_i-n\cdot\bar{x}\cdot\bar{y}}}{\sum\limits_{i=1}^n{x_i^2-n\cdot\bar{x}^2}}\),
\(\widehat{a}=\bar{y}-\widehat{b}\cdot\bar{x}\).
(1)求\(z\)关于\(t\)的线性回归方程。
分析:需要先注意\(z\rightarrow y\;\;\),\(t\rightarrow x\;\;\),然后将所给的公式翻译为关于\(z\)和\(t\)的公式,这涉及到数学素养,公式的正向迁移。
由表格可知,\(\bar{t}=3\),\(\bar{z}=2.2\), \(\sum\limits_{i=1}^5{t_iz_i}=45\), \(\sum\limits_{i=1}^5{t_i^2}=55\),
故\(\widehat{b}=\cfrac{\sum\limits_{i=1}^n{t_iz_i-n\cdot\bar{t}\cdot\bar{z}}}{\sum\limits_{i=1}^n{t_i^2-n\cdot\bar{t}^2}}\),
\(=\cfrac{45-5\times 3\times 2.2}{55-5\times 9}=1.2\),
\(\widehat{a}=\bar{z}-\widehat{b}\cdot\bar{t}=2.2-3\times 1.2=-1.4\)。
故\(\hat{z}=1.2t-1.4\)。
(2)通过(1)中的方程,求出\(y\)关于\(x\)的线性回归方程。
分析:将\(t=x-2010\),\(z=y-5\)代入\(\hat{z}=1.2t-1.4\),
得到\(y-5=1.2\times (x-2010)-1.4\),
即\(\hat{y}=1.2x-2408.4\)。
(3)用所求的线性回归方程预测,到\(2020\)年底,该地的储蓄存款余额可达到多少?
分析:当\(x=2020\)时,代入\(\hat{y}=1.2x-2408.4\),
得到\(\hat{y}=1.2\times 2020-2408.4=15.6(千亿元)\)。
相关链接:数据预处理的不同思路,数据预处理
分析:由于样本中心点\((\bar{x},\bar{y})\)必在回归直线上,先代入计算得到\(\bar{y}=5\),
即原数据的样本中心点为\((3,5)\),故\(\sum\limits_{i=1}^{n}x_i=3n\),\(\sum\limits_{i=1}^{n}y_i=5n\),
由于\(1.1+4.9=6\),\(2.1+7.9=10\),去除两个样本点后,
新的样本中心点的坐标\(\bar{x}=\cfrac{3n-6}{n-2}=3\),\(\bar{y}=\cfrac{5n-10}{n-2}=5\),
故新的样本中心点\((3,5)\)必在回归直线\(\hat{y}=1.2x+b\)上,
则有\(5=1.2\times 3+b\),则\(b=1.4\),
即重新求得的回归直线\(l\)为\(\hat{y}=1.2x+1.4\);
当\(x=2\)时,代入计算得到\(\hat{y}=1.2\times 2+1.4=3.8\)。
法2:特殊化策略,将样本数据点的个数认定为\(5\)个,其他的计算仿上完成。
| 抽取次序 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
|---|---|---|---|---|---|---|---|---|
| 零件尺寸 | 09.95 | 10.12 | 09.96 | 09.96 | 10.01 | 09.92 | 09.98 | 10.04 |
| 抽取次序 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
|---|---|---|---|---|---|---|---|---|
| 零件尺寸 | 10.26 | 09.91 | 10.13 | 10.02 | 09.22 | 10.04 | 10.05 | 09.95 |
经计算得\(\bar{x}=\cfrac{1}{16}\cdot\sum\limits_{i=1}^{16}{x_i}=9.97\) ,
\(s=\sqrt{\cfrac{1}{16}\cdot\sum\limits_{i=1}^{16}{(x_i-\bar{x})^2}}=\sqrt{\cfrac{1}{16}(\sum\limits_{i=1}^{16}{x_i^2-16\bar{x}^2})}\approx 0.212\),
\(\sqrt{\sum\limits_{i=1}^{16}{(i-8.5)^2}}\approx 18.439\),\(\sum\limits_{i=1}^{16}{(x_i-\bar{x})(i-8.5)}=-2.78\),
其中\(x_i\)为抽取的第\(i\)个零件的尺寸,\(i=1,2,\cdots,16\) .
(1)求\((x_i,i)(i=1,2,\cdots,16)\)的相关系数\(r\),并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小
(若\(|r|<0.25\) ,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
分析:本题目的难点有:所给公式的正向迁移和破解,
比如\(i\rightarrow y_i\),即表格中的第一行\(i=1,2,\cdots,16\),故\(\bar{y_i}=\bar{i}=8.5\),
这样第一问的计算就没有多大难度了,
\(|r|=\cfrac{|\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}|}{\sqrt{\sum\limits_{i=1}^n{(x_i-\bar{x})^2}}\sqrt{\sum\limits_{i=1}^n{(y_i-\bar{y})^2}}}\)
\(=\cfrac{2.78}{0.212\times\sqrt{16}\times 18.439}\approx 0.18\)<0.25.
故可以认为零件的尺寸不随生产过程的进行而系统地变大或变小。
(2)一天内抽检零件中,如果出现了尺寸在\((\bar{x}-3s,\bar{x}+3s)\) 之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
分析:\(\bar{x}=9.97\),\(s=0.212\),故\((\bar{x}-3s,\bar{x}+3s)\)应该为\((9.97-3\times0.212,9.97+3\times0.212)\),
即\((9.334,10.606)\),可以看出表格中的第13个数据\(9.22\)不在这个范围内,
本来小概率事件在一次实验中不可能发生,现在竟然真真实实的发生,故可以认为出现异常,应该检查。
(ⅱ)在\((\bar{x}-3s,\bar{x}+3s)\)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
分析:有上一问知道离群值为\(9.22\),剔除这个值,
则剩余的\(15\)个数值的均值\(\bar{x}_{15}\)应该这样计算:
\(\bar{x}_{15}=\cfrac{16\times9.97-9.22}{15}=10.02\),
故这条生产线当天生产的零件尺寸的均值大约为\(10.02\)。
计算标准差的分析:由方差公式,要计算剩余的\(15\)个数值的标准差,
需要计算\(\cfrac{1}{15}\sum\limits_{i=1}^{15}{(x_i-\bar{x}_{15})^2}=\cfrac{1}{15}(\sum\limits_{i=1}^{15}{x_i^2}-15\bar{x}_{15}^2)\),
由于第一个公式没有办法和已知数据有效的链接,故改用第二个公式求解,
为此需要先求\(\sum\limits_{i=1}^{16}{x_i^2}\),故可以从\(\sqrt{\cfrac{1}{16}(\sum\limits_{i=1}^{16}{x_i^2-16\bar{x}_{16}^2})}\approx 0.212\)开始,
分析到此,计算如下:
由\(\sqrt{\cfrac{1}{16}(\sum\limits_{i=1}^{16}{x_i^2-16\bar{x}_{16}^2})}\approx 0.212\)得到,
\(\sum\limits_{i=1}^{16}{x_i^2}=16\times 0.212^2+16\times 9.97^2\);
故\(\sum\limits_{i=1}^{15}{x_i^2}=16\times 0.212^2+16\times 9.97^2-9.22^2=1506.125\),
则\(\sum\limits_{i=1}^{15}{x_i^2}-15\times\bar{x}_{15}^2=1506.125-15\times10.02^2=0.119104\);
故\(\cfrac{1}{15}(\sum\limits_{i=1}^{15}{x_i^2}-15\times\bar{x}_{15}^2)\approx 0.008\),
故所求的标准差\(s_{15}=\sqrt{0.008}\approx 0.09\),即这条生产线当天生产的零件尺寸的标准差大约为\(0.09\)。
【附:样本\((x_i,y_i)(i=1,2,\cdots,n)\)的相关系数
\(r=\cfrac{\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}}{\sqrt{\sum\limits_{i=1}^n{(x_i-\bar{x})^2}}\sqrt{\sum\limits_{i=1}^n{(y_i-\bar{y})^2}}}\),\(\sqrt{0.008}=0.09\)】
【反思总结】准确、深入、全面的理解公式中的每一个字母的含义,做到灵活运用公式,能将公式正向迁移到新的题目中,这是解决本题的关键所在。我们平时的学习决不能仅仅停留在会套用公式的层面上,这样的要求有点低了。你不需要担心公式记不住,需要担心的是,给定公式,你到底会不会使用。

补充表格1,表中\(w_i=\sqrt{x_i}\),\(\bar{w}=\cfrac{1}{8}\sum\limits_{i=1}^{8}{w_i}\),
| \(\bar{x}\) | \(\bar{y}\) | \(\bar{w}\) |
|---|---|---|
| \(46.6\) | \(563\) | \(6.8\) |
补充表格2,由于只用一个表格显示乱码,故将表格拆分为两个。
| \(\sum\limits_{i=1}^{8}(x_i-\bar{x})^2\) | \(\sum\limits_{i=1}^{8}{(w_i-\bar{w})^2}\) | \(\sum\limits_{i=1}^{8}{(x_i-\bar{x})\cdot(y_i-\bar{y})}\) | \(\sum\limits_{i=1}^{8}{(w_i-\bar{w})\cdot(y_i-\bar{y})}\) |
|---|---|---|---|
| \(289.8\) | \(1.6\) | \(1469\) | \(108.8\) |
附:对于一组数据\((u_1,v_1)\),\((u_2,v_2)\),\(\cdots\),\((u_n,v_n)\),其回归直线\(v=\alpha+\beta u\)的斜率和截距的最小二乘估计分别为\(\hat{\beta}=\cfrac{\sum\limits_{i=1}^{8}{(u_i-\bar{u})(v_i-\bar{v})}}{\sum\limits_{i=1}^{n}{(u_i-\bar{u})^2}}\),\(\hat{\alpha}=\bar{v}-\hat{\beta}\bar{u}\),
(Ⅰ)根据散点图判断,\(y=a+bx\)与\(y=c+d\sqrt{x}\)哪一个适宜作为年销售量\(y\)关于年宣传费\(x\)的回归方程类型?(给出判断即可,不必说明理由)
分析:由散点图可以分析,\(y=c+d\sqrt{x}\)更适宜作为年销售量\(y\)关于年宣传费\(x\)的回归方程类型,图中的变量呈现曲线回归。
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立\(y\)关于\(x\)的回归方程;
分析:令\(w=\sqrt{x}\),先建立\(y\)关于\(w\)的线性回归方程,
由于\(\hat{d}=\cfrac{108.8}{1.6}=68\),
则\(\hat{c}=\bar{y}-\hat{d}\bar{w}=563-68\times 6.8=100.6\),
所以\(y\)关于\(w\)的线性回归方程为\(\hat{y}=100.6+68w\),
即\(y\)关于\(x\)的线性回归方程为\(\hat{y}=100.6+68\sqrt{x}\).
(Ⅲ)已知这种产品的年利润\(z\)与\(x\)、\(y\)的关系为\(z=0.2y-x\),根据(Ⅱ)的结果回答下列问题:
(i)年宣传费\(x=49\)时,年销售量及年利润的预报值是多少?
分析:由(Ⅱ)知,年宣传费\(x=49\)时,年销售量的预报值\(\hat{y}=100.6+68\sqrt{49}=576.6\),
年利润\(z\)的预报值\(\hat{z}=0.2\times 576.6-49=66.32\)。
(ii)年宣传费\(x\)为何值时,年利润的预报值最大?
分析:由(Ⅱ)知,年利润\(z\)的预报值\(\hat{z}=0.2\times (100.6+68\sqrt{x})-x\)
\(=-x+13.6\sqrt{x}+20.12=-[(\sqrt{x})^2-13.6\sqrt{x}]+20.12\)
当\(\sqrt{x}=\cfrac{13.6}{2}=6.8\)时,即当\(x=46.24\)时年利润的预报值最大。
| 零件数\(x\)(个) | 10 | 20 | 30 | 40 | 50 |
|---|---|---|---|---|---|
| 加工时间\(y\)(min) | \(62\) | \(**\) | \(75\) | \(81\) | \(89\) |
分析:由于数据中心点\((\bar{x},\bar{y})\)必然在回归直线上,故先求得\(\bar{x}=30\),
代入回归直线方程得到,\(\bar{y}=0.67\times 30+54.9=75\),
在计算数据是采用简单的算法,取参考值为75,设缺省值为\(m\)
则有\(75=75+\cfrac{-13+(m-75)+0+6+14}{5}\),解得\(m=68\)。
解后反思:
1、 数据中心点\((\bar{x},\bar{y})\)必然在回归直线上,
2、注意算法的简洁性,省时省力。
| \(x\) | 3 | 4 | 5 | 6 | 7 |
|---|---|---|---|---|---|
| \(y\) | \(4.0\) | \(a-5.4\) | \(-0.5\) | \(0.5\) | \(b-0.6\) |
得到的回归直线方程为\(\hat{y}=\hat{b}x+\hat{a}\),若样本点的中心为\((5,0.9)\),则当\(x\)每增加1个单位,\(y\)就【】
分析:由题意可知,\(\cfrac{a+b-2}{5}=0.9\),即\(a+b=6.5\)①,
有样本中心点为\((5,0.9)\)在回归直线上,则\(0.9=5b+a\)②,
联立①②,解得\(b=-1.4\),\(a=7.9\),
则回归直线方程为\(\hat{y}=-1.4x+7.9\)。
故可知则当\(x\)每增加1个单位,\(y\)就减少1.4个单位;故选\(B\)。
| 次数 | <40 | 40~49 | 50~59 | 60~69 | $\ge $70 |
|---|---|---|---|---|---|
| 男 | \(2\) | \(3\) | \(2\) | \(7\) | \(6\) |
| 女 | \(1\) | \(3\) | \(8\) | \(6\) | \(2\) |
(1)根据题意完成下面的\(2\times 2\)列联表,并据此判断能否有90%的把握认为“是否获奖”与“性别”有关?
| 有奖 | 无奖 | 总计 | |
|---|---|---|---|
| 男 | \(13\) | \(7\) | \(20\) |
| 女 | \(8\) | \(12\) | \(20\) |
| 总计 | \(21\) | \(19\) | \(40\) |
\(\chi^2=\cfrac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}=\cfrac{40(13\times12-7\times 8)^2}{20\times20\times21\times19}\approx 2.5<2.706\),
所以没有90%的把握认为“是否获奖”与“性别”有关。
(2)在这40名顾客中,从支付次数达到70的人中随机抽取3人,设抽取的女性有\(X\)人,求\(X\)的分布列及数学期望\(E(X)\)。
附:参考公式\(\chi^2=\cfrac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}\),
参考数据:
| \(P\)(\(\chi^2\)\(\geqslant\)\(k_0\)) | \(0.500\) | \(0.400\) | \(0.250\) | \(0.150\) | \(0.100\) | \(0.050\) | \(0.025\) | \(0.010\) | \(0.005\) | \(0.001\) |
|---|---|---|---|---|---|---|---|---|---|---|
| \(k_0\) | \(0.455\) | \(0.708\) | \(1.323\) | \(2.072\) | \(2.706\) | \(3.841\) | \(5.084\) | \(6.635\) | \(7.897\) | \(10.828\) |
解析:支付次数达到70的顾客共有8人,其中6名男性,2名女性,从中随机抽取3人,抽取的女性人数服从超几何分布,\(X\)的所有可能取值为\(0,1,2\)
且\(P(X=0)=\cfrac{C_6^3}{C_8^3}=\cfrac{20}{56}\),\(P(X=1)=\cfrac{C_2^1C_6^2}{C_8^3}=\cfrac{30}{56}\),
\(P(X=2)=\cfrac{C_2^2C_6^1}{C_8^3}=\cfrac{6}{56}\),
所以分布列如下:
| \(X\) | \(0\) | \(1\) | \(2\) |
|---|---|---|---|
| \(P\) | \(\cfrac{20}{56}\) | \(\cfrac{30}{56}\) | \(\cfrac{6}{56}\) |
数学期望为 \(E(X)=0\times \cfrac{20}{56}+1\times \cfrac{30}{56}+2\times \cfrac{6}{56}=\cfrac{3}{4}\)。

变量的相关性的算理说明和统计案例中的运算技巧。
浙公网安备 33010602011771号