正态分布
前言
变量引入
前面讨论的随机变量的取值是可以一一列举的,称为离散型随机变量,但在实际应用中,还有许多随机变量可以取某一区间的一切值,比如某种电子产品的使用寿命\(X\),可以取\([0,b]\)或\([0,+\infty)\)内的一切值。所有取值在某个区间的随机变量称为连续型随机变量,
曲线引入
由频率分布直方图可以得到频率折线图,如果将区间无限细分,最终得到一条曲线,这条曲线称为随机变量\(X\)的分布密度曲线,这条曲线对应的函数称为\(X\)的分布密度函数,记为\(f(x)\)。
正态曲线
函数\(f(x)=\cfrac{1}{\sigma\sqrt{2\pi}}e^{-\cfrac{(x-\mu)^2}{2\sigma^2}},x\in(-\infty,+\infty)\),其中实数\(\mu,\sigma(\sigma>0)\)为参数,我们称\(f(x)\)的图像为正态分布密度曲线,简称正态曲线。
曲线性质
⑴曲线位于\(x\)轴的上方,与\(x\)轴不相交;
⑵曲线是单峰的,它关于直线\(x=\mu\)对称;
⑶曲线在\(x=\mu\)处达到峰值\(\cfrac{1}{\sigma\sqrt{2\pi}}\);
⑷曲线与\(x\)轴之间的面积为1;
⑸当\(\sigma\)一定时,曲线的位置由\(\mu\)确定,曲线随着\(\mu\)的变化而沿着\(x\)轴平移;
⑹当\(\mu\)一定时,曲线的形状由\(\sigma\)确定,\(\sigma\)越小,曲线越“瘦高”,表示总体的分布越集中;\(\sigma\)越大,曲线越“矮胖”,表示总体的分布越分散;
正态分布
⑴.正态分布的定义及表示
若对于任何实数\(a,b(a<b)\),随机变量\(X\)满足\(P(a<X\leq b)=\int_{a}^{b}f(x)\,dx\),则称\(X\)的分布为正态分布,也叫“常态分布”,或“高斯分布”,记作\(X \sim N(\mu,\sigma^2)\)
若\(\mu=0,\sigma=1\),则称为标准正态分布,记作\(X \sim N(0,1)\)
⑵.正态总体在三个特殊区间内取值的概率值:
①\(P(\mu-\sigma<X\leq \mu+\sigma)=68.3\%\)
②\(P(\mu-2\sigma<X\leq \mu+2\sigma)=95.4\%\)
③\(P(\mu-3\sigma<X\leq \mu+3\sigma)=99.7\%\)
(3).常用性质
根据正态密度曲线的对称性,当\(P(\xi>x_1)=P(\xi<x_2)\)时必然有\(\cfrac{x_1+x_2}{2}=\mu\)。
重要公式
在标准正态分布表中,相应于每一个\(x_0\)的函数值\(\Phi(x_0)\)是指总体取小于\(x_0\)的值的概率(函数\(\Phi(x_0)\)实际上是正态总体\(N(0,1)\)的累积分布函数),即\(\Phi(x_0)=P(x<x_0)\),\(\Phi'(x)=f(x)\).
⑴\(\Phi(-x)=1-\Phi(x)\);
⑵\(P(a<X<b)=\Phi(b)-\Phi(a)\);
⑶\(P(X\ge x_0)=1-P(X<x_0)\);
⑷若\(X\sim N(\mu,\sigma^2)\),则\(Y=\cfrac{X-\mu}{\sigma} \sim N(0,1)\);非正态分布转化为正态分布的公式。
典例剖析
解析:因为\(\mu=2\),根据正态分布的性质得\(\cfrac{(a+2)+(2a-3)}{2}=2\),解得\(a=\cfrac{5}{3}\)。
分析:因为\(P(\xi>140)=\cfrac{1-2P(100<\xi<120)}{2}=0.05\),所以在140分以上的试卷中要抽取\(100×0.05=5\)(份),故选 B.
解后反思:在计算服从正态分布的随机变量在特殊区间上的概率时要充分利用正态密度曲线的对称性,将所求的概率转化到我们已知区间上的概率。
\(A.P(Y\ge \mu_2)\ge P(Y\ge \mu_1)\)
\(B.P(X\leq \sigma_2)\ge P(X\leq \sigma_1)\)
\(C\).对任意实数\(t\),\(P(X\leq t)\ge P(Y\leq t)\)
\(D\).对任意实数\(t\),\(P(X\ge t)\ge P(Y\ge t)\)
分析:根据正态密度曲线可知,\(\mu_1<\mu_2\),\(\sigma_1<\sigma_2\),
则有\(P(Y\ge \mu_2)< P(Y\ge \mu_1)\),故\(A\)错; 且有\(P(X\leq \sigma_2)< P(X\leq \sigma_1)\),故\(B\)错;
对\(C\)选项而言,不妨赋值,设\(t=\mu_1\),由图可知,必有\(P(X\leq t)\ge P(Y\leq t)\),故\(C\)正确;
对\(D\)选项而言,不妨赋值,设\(t=\mu_1\),由图可知,必有\(P(X\ge t)< P(Y\ge t)\),故\(D\)错误;
综上所述,选\(C\)。
附:若随机变量\(X\sim N(\mu,\sigma^2)\),则\(P(\mu-\sigma<X\leq \mu+\sigma)=68.3\%\),\(P(\mu-2\sigma<X\leq \mu+2\sigma)=95.4\%\)
分析:由题可知,\(P(-3<X<3)=68.26\%\),\(P(-6<X<6)=95.44\%\),则\(P(3<X<6)=\cfrac{1}{2}(95.44\%-68.26\%)=13.59\%\),故选\(B\)。
附:若随机变量\(X\sim N(\mu,\sigma^2)\),则\(P(\mu-\sigma<X\leq \mu+\sigma)=68.3\%\),\(P(\mu-2\sigma<X\leq \mu+2\sigma)=95.4\%\)
分析:由正态分布\(N(0,1)\)的密度曲线的几何意义,知题图中阴影部分的面积为\(P(0<X\leq 1)=\cfrac{1}{2}\times 0.6826=0.3413\),
故落入阴影部分的点的个数的估计值为\(0.3413\times 10000=3413\),故选\(C\)。
分析:\(0.8185\).
附:若\(Z\sim N(\mu,\sigma^2)\),则\(P(|Z-\mu|<\sigma)=0.6826\),\(P(|Z-\mu|<2\sigma)=0.9544\),\(P(|Z-\mu|<3\sigma)=0.9974\),
分析:选\(A\);