概率论

正态分布

当我们重复一个实验很多次的时候,这个随机变量的均值就表现出正态分布特性,就叫做正态随机变量。这个事实被称为中心极限定理,在很多统计学上都有应用

我们使用\(\mu\)和来$$\sigma $$描述正态随机变量,其中\(\mu\) 是均值,\(\sigma\)是标准差,正态随机变量的概率密度函数是

\[f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}} \]

概率密度函数是具有对所有x关于y轴的对称性的$$f(\mu - x) = f(\mu + x)$$,该函数的曲线是钟形的,所以也叫钟曲线

标准正态分布

标准正态分布是指均值\(\mu=0\),标准差\(\sigma=1\)的正态随机变量\(Z\),我们使用标准正态分布的原因呢就是因为它对应的数据表格是固定的,我们在需要的时候直接查表就行了,非常的方便。当正态随机变量不是标准的时候我们需要把它传换成标准的,然后再查表。

image-20221113192234609

image-20221113192822706

image-20221113192834586

标准正态分布的累积概率分布是$$P(Z \le z)$$,对应的几个说明:

1, $$P(Z \le z)$$就是从负无穷到\(z\)的钟形曲线去z轴的面积

2,$$P({z_0} \le Z \le {z_1}) = P(Z \le {z_1}) - P({z_0} \le Z)$$

3,同样的标准正态分布的累积概率分布也是对称的

怎样转换成标准正态分布

我们现在知道正态随机变量\(X\),均值\(\mu\)和标准差\(\sigma\),转换公式为

\[Z = {{X - \mu } \over \sigma } \]

这样我们就可以把一个关于普通正态随机变量转换成标准正态随机变量$$P(X \le x) = P(Z \le {{X - \mu } \over \sigma })$$

举个例子

image-20221113194403129

这整个题目就是把普通正态随机变量传换成标准正态随机变量,然后查表就可以做了,其他的和普通正态随机变量一样,就做(i)问

\[\begin{aligned} P(X>496) &=P\left(Z>\frac{496-500}{4}\right) \\ &=P(Z>-1)=1-0.159=0.841 \end{aligned} \]

二项分布的正态逼近

当试验的次数非常多且\(np\)\(n(1 - p)\)都很大时,我们一般认为都大于5就可以使用,大于15就会非常好,正态分布可以用来近似二项概率。

这时候我们就可以将二项随机变量传换成标准正态随机变量,这样就可以使用标准正态随机变量的表格进行做题了。转换公式为

\[Z = {{X - np} \over {\sqrt {np(1 - p} }} \]

因为二项分布的概率是离散的,但是正态分布的概率是连续的,这就会存在一个误差。为了提高近似的准确性,我们往往会添加一个校正因子,我们采用的方法就是把这个离散的值\(K\)转换成一个连续的区间\([k-0.5,k+0.5]\)

例题

image-20221113200314738

(i)我们可以将二项随机变量传换成一个区间$$P(X \le 20.5)$$,然后再传换成标准正态随机变量的形式

\[P(Z \le {{20.5 - 18} \over {\sqrt {150(0.12)(0.88)} }}) = P(Z \le 0.63) = 0.736 \]

(ii)我们就把这个原来的区间\([15,23]\)扩充成一个新的区间\([14.5,23.5]\)

\[\begin{array}{r} P\left(\frac{14.5-18}{\sqrt{150(0.12)(0.88)}} \leq Z \leq \frac{23.5-18}{\sqrt{150(0.12)(0.88)}}\right) \\ =P(-0.88 \leq Z \leq 1.38)=0.916-0.189=0.727 . \end{array} \]

(iii)把17传换成一个区间就是\([16.5,17,5]\)

\[\begin{array}{r} P\left(\frac{16.5-18}{\sqrt{150(.12)(.88)}} \leq Z \leq \frac{173.5-18}{\sqrt{150(.12)(.88)}}\right) \\ =P(-0.38 \leq Z \leq -0.13)=0.448-0.352=0.096 . \end{array} \]

抽样(Sampling)

统计推断是通过考虑对象的一个较小子集,对大量对象得出结论。

整体(population)就是我们目标的整体,样本(sample)就是我们取的小子集。我们必须要选择一个样本可以很好地代表整体

如果整体数目是有限的那么就称为有限整体(finite),否则就是无限整体(infinite)

如果说我们在一个整体中对同一个对象抽取超过一次,那么我们就认为进行的是有放回抽样,否则就为无放回抽样

  • 对于一个有限整体进行有放回抽样那么就等同于从无限整体中采样
  • 如果我们的整体数量远大于样本的数量那么我们也认为是从无限整体中进行抽样

随机样本(Random Samples)

我们使用随机抽取的样本的概率密度函数(pdf)\(f(x)\)去描述整体的情况。

如果我们在相同的环境中进行独立地进行n次观察(抽取),这个n次观察的结果就是随机变量\(X_1 X_2 ... X_n\)

这些随机变量\(X_1 X_2 ... X_n\)是独立的,并且拥有相同的概率密度函数\(f(x)\)

我们想做的其实是利用样本的概率密度函数去估计整体的概率密度函数,我们主要想得到整体的一些参数

  • 对于服从正态分布的变量来说,我们想知道均值\(\mu\)和标准差\(\sigma\)
  • 对于服从伯努利分布的时候我们想知道的是占比\(p\)

统计量(Statistics)

均值\(\hat{\Theta }\)

我们想使用样本的均值$$\bar X = {{{X_1} + ... + {X_n}} \over n}$$去估计整体的均值\(\mu\)

如果我们再从相同的整体中取n个样本,这时候样本的均值和上一次可能是不同的,事实上样本的均值本身也是一个随机变量

一个统计量\(\hat{\Theta }\)是在随机样本中观察到的值的函数。

方差\(\hat{S}^2\)

\(\hat{S}^{2}=\frac{\left(X_{1}-\bar{X}\right)^{2}+\cdots+\left(X_{n}-\bar{X}\right)^{2}}{n-1}\)

占比\(\hat{P}\)

对于伯努利随机变量来说,占比这个参数比较的重要

\[\hat P = {{{X_1} + ... + {X_n}} \over n} \]

指数分布

指数分布和泊松分布的区别

其实泊松分布和指数分布有一定的相似度,但是还是有很大的区别的

泊松分布就是描述某段时间内,事件具体的发生概率。对应的概率公式为

\[P(N(t)=n)=\frac{(\lambda t)^{n} e^{-\lambda t}}{n !} \]

指数分布就是两次时间发生的时间的概率,对应的概率公式就是

\[\begin{array}{l} P(X>x)=e^{-\lambda x} \\ P(X \leq x)=1-e^{-\lambda x} \end{array} \]

它对应的均值和方差分别为\(E(X)=\frac{1}{\lambda}, \quad V(X)=\frac{1}{\lambda^{2}}\)

例子

(1)

image-20221112224333198

首先我们可以知道,\(\lambda=2\)

(i)直接代入公式\(P(X>3)=e^{-2(3)}=0.0025\)

(ii)\(\begin{aligned} P(1 \leq X \leq 2.5) &=P(X \leq 2.5)-P(X<1) \\ &=e^{-2(1)}-e^{-2(2.5)} \\ &=0.129 \end{aligned}\)

(iii)根据我们已知的内容,均值等\({1 \over {\lambda} }= 0.2\)

(2)

image-20221112225130618

(i) \(P(X>8)=e^{-0.2(8)}=0.202\)

(ii)他说六分钟至少有一个电话,那么意思就是小于六分钟没有电话,那么根据我们已知的概率公式就可以知道

\[P(X \leq 6)=1-e^{-0.2(6)}=0.699 \]

(iii)这个就是知道他的概率,让我们求他的时间间隔,正好反了过来

\[\begin{aligned} 1-e^{-0.2 x} &=0.8 \\ e^{-0.2 x} &=0.2 \\ 0.2 x &=\log (5) \\ \\ so, x=8.05\\ \end{aligned} \]

(vi)这一问就是说在前五分钟没有电话打进来的前提下,接下来的六分钟没有电话打进来的概率,根据我们在前面学到的知识

\[\begin{aligned} \frac{P(5<X \leq 11)}{P(X>5)} &=\frac{e^{-0.2(5)}-e^{-0.2(11)}}{e^{-0.2(5)}} \\ &=0.699 \end{aligned} \]

值得注意的是(vi)的答案和(ii)的答案是一致的,说明前五分钟打电话的情况和后六分钟打电话的情况是相互独立的

Weibull分布

威布尔分布在可靠性工程中被广泛应用,尤其适用于机电类产品的磨损累计失效的分布形式, 其中\(\delta\) 是尺度参数,\(\beta\)是形状参数

\[F(x)=P(X \leq X)=1-e^{-\left(\frac{x}{\delta}\right)^{\beta}} \]

例子

image-20221112231321982

(1)\(P(X \ge 9000)= e^{-\left(\frac{9,000}{10,000}\right)^{3}}=0.482\)

(2)

\[\eqalign{ & P(9000 \le X \le 11000) \cr & = P(X \le 11000) - P(X \le 9000) \cr & = {e^{ - {{\left( {{{9,000} \over {10,000}}} \right)}^3}}} - {e^{ - {{\left( {{{11,000} \over {10,000}}} \right)}^3}}} \cr & = 0.218 \cr} \]

大样本均值(mean)的置信区间

最基本的了解:

那么什么是点估计?什么是区间估计呢?

以前很流行一种刮刮卡:

游戏规则是(假设只有一个大奖):

· 大奖事先就固定好了,一定印在某一张刮刮卡上

· 买了刮刮卡之后,刮开就知道自己是否中奖

那么我们起码有两种策略来刮奖:

· 点估计:买一张,这就相当于你猜测这一张会中奖(直接用样本统计量来估计总体参数值)

· 区间估计:买一盒,这就相当于你猜测这一盒里面会有某一张中奖(根据样本统计量,按一定的概率大小确定包含总体参数值)

很显然区间估计的命中率会更高(当然费用会更高,因为风险降低了)。

实际上:

点估计量是用于估计总体参数的样本统计量。但我们不可能期望点估计量能给出总体参数的精确值,所以经常在点估计上加减估计误差来计算区间估计。

整体标准差

当我们的样本量大于30,并且已知标准差的时候,我们想构建一个对总体均值\(\mu\)的置信区间,

根据中心极限定理(Central Limit Theorem)可以转换成标准正态分布$$Z = {{\overline X - \mu } \over {\sigma /\sqrt n }}$$的形式。

对于置信度和置信区间的关系通式为

\[P\left(-z_{\alpha / 2} \leq Z \leq z_{\alpha / 2}\right)=1-\alpha \]

根据置信度求解置信区间为

\[\bar{x}-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x}+z_{\alpha / 2} \frac{\sigma}{\sqrt{n}} \]

实际的例子

举个例子\(P\left(-z_{0.025} \leq Z \leq z_{0.025}\right)=0.95\),根据标准正态分布表格,在95%的置信度的置信区间为$$[ - {Z_{0.025}},{Z_{0.025}}]$$,那么也就是

\[\begin{aligned} P\left(-1.96 \leq \frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \leq 1.96\right) &=0.95 \\ P\left(-1.96\left(\frac{\sigma}{\sqrt{n}}\right) \leq \bar{X}-\mu \leq 1.96\left(\frac{\sigma}{\sqrt{n}}\right)\right) &=0.95 \end{aligned} \]

我们在这里就可以通过已知置信度求相应的置信区间

\[P\left(\bar{X}-1.96\left(\frac{\sigma}{\sqrt{n}}\right) \leq \mu \leq \bar{X}+1.96\left(\frac{\sigma}{\sqrt{n}}\right)\right)=0.95 . \]

相似的,对于置信度为99%对应的置信区间为

\[\bar{X}-2.58 \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+2.58 \frac{\sigma}{\sqrt{n}} \]

例题

image-20221112214105824 $$ \begin{aligned} 1023-1.96 \frac{20}{\sqrt{32}} & \leq \mu \leq 1023+1.96 \frac{20}{\sqrt{32}} \\ 1023-6.93 & \leq \mu \leq 1023+6.93 \\ 1016.07 & \leq \mu \leq 1029.93 \end{aligned} $$

误差界限和样本容量

如果我们知道置信度和标准差的时候,可以确定在相应置信度的情况下判定误差(error in estimating)$$|\overline X - \mu |$$小于一个指定的值\(E\)所需要的样本量应该是多大,\(n \geq\left(\frac{z_{\alpha / 2} \sigma}{E}\right)^{2}\)

就拿95%置信度举个例子,求在95%可信度的情况下判定误差小于\(E\)所应该选择的样本量应该是多大

我们知道\(P\left(-1.96 \leq \frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \leq 1.96\right)=0.95\),改一下形式\(P\left(|\bar{X}-\mu| \leq 1.96 \frac{\sigma}{\sqrt{n}}\right)=0.95\),也就是说\(|\bar{x}-\mu| \leq E\),那么\(n \geq\left(\frac{1.96 \sigma}{E}\right)^{2}\)

样本标准偏差

上述我们说的都是在已知标准差的情况下计算的,但是如果我们不知道整体标准差的话,我们就可以使用样本标准偏差(sample standard deviation)\(S\)代替标准差来进行相关的计算,前提条件是样本量要大于30

如果我们使用了上述的\(S\),我们就必须使用学生分布(student’s t distribution)根据(n-1)自由度查表求相应的置信区间

\[\bar{x}-t_{n-1, \alpha / 2} \frac{s}{\sqrt{n}} \leq \mu \leq \bar{x}+t_{n-1, \alpha / 2} \frac{s}{\sqrt{n}} \]

image-20221112221239212

例子

image-20221112221658443

根据题目我们无法得知整体的标准差,可以得知的只有八个样本,现在让我们去求95%和99%置信度对应的置信区间

1,首先我们能做的就是求一下样本的均值

\[\bar{x}=\frac{8.8+9.1+8.5+9.3+9.5+8.8+8.9+9.2}{8}=9.0125 . \]

2,还可以求一下样本的标准差,\(S=0.323\),因为有八个样本所以我们的自由度是7,现在我们就可以去查表了,行是6,列是0.025,对应的是$${t_{7,0.025}} = 2.365$$

3,这样就可以根据上面给的置信区间的公式求出区间

\[\begin{aligned} 9.0125-2.365 \frac{0.323}{\sqrt{8}} & \leq \mu \leq 9.0125+2.365 \frac{0.323}{\sqrt{8}} \\ 9.0125-0.27 & \leq \mu \leq 9.0125+0.27 \\ 8.7425 & \leq \mu \leq 9.2825 \end{aligned} \]

大样本占比(proportion)的置信区间

如果说\(x\)表示一个样本中我们感兴趣的部分,\(n\)表示样本的大小,我们使用样本的占比$$\widehat p = {x \over n}$$来估计整体占比\(p\)

对于大样本来说$$Z = {{\hat P - p} \over {\sqrt {p(1 - p)/n} }}$$是服从标准正态分布的,所以我们要把占比传换成标准正态分布,然后查标准正态分布表格就行了

比例公式和上面的大样本均值是一样的

\[P\left(-z_{\alpha / 2} \leq Z \leq z_{\alpha / 2}\right)=1-\alpha \]

这样我们就可以根据置信度来求出对应的置信区间

\[\hat{p}-z_{\alpha / 2} \sqrt{p(1-p) / n} \leq p \leq \hat{p}+z_{\alpha / 2} \sqrt{p(1-p) / n} . \]

例子

image-20221113184910108

根据这个题目我们可以知道样本的占比是$$\hat p = {{46} \over {80}} = 0.575$$,现在又知道置信度,那么我们就可以求出对应的置信区间

\[0.575-1.96 \sqrt{\frac{(0.575)(0.425)}{80}} \leq p \leq 0.575+1.96 \sqrt{\frac{(0.575)(0.425)}{80}}\\ 0.469 \le p \le 0.683 \]

相似的我们也可以知道99%置信度对应的置信区间是多少

\[0.575-2.33 \sqrt{\frac{(0.575)(0.425)}{80}} \leq p \leq 0.575+2.33 \sqrt{\frac{(0.575)(0.425)}{80}}\\ 0.446 \le p \le 0.704 \]

误差界限和样本容量

与估计平均值一样,可以用样本占比的值\(p\),以规定的置信度对估计总体占比\(\hat{p}\)的误差大小作出断言。样本占比鱼总体的真实占比的误差\(|\hat{p}-p|\)最多是$${Z_{\alpha /2}}\sqrt {p(1 - p)/n} $$,现在卫门要求这个误差必须小于一个指定的值\(E\),就是$${Z_{\alpha /2}}\sqrt {p(1 - p)/n} \le E$$,那么我们就可以根据给定的这些值来确定需要多大的样本量才能满足误差要求

\[n \geq\left(\frac{z_{\alpha / 2}}{E}\right)^{2} p(1-p) \]

例子

image-20221113190233050

(i)我们可以知道置信度是95%,误差要求为0.04,对应的占比是0.5,那么我们就可以得知需要的样本量大小

\[n \ge 0.25{\left( {{{1.96} \over {0.04}}} \right)^2} = 600.25 \]

所以样本量至少是601

(ii)现在我们有知道占比改为0.55,那么对应的样本大小变为

\[n \ge (0.55)(0.45){\left( {{{1.96} \over {0.04}}} \right)^2} = 594.25 \]

所以现在我们需要的样本量至少是595

posted @ 2022-11-13 23:06  想飞的猪头  阅读(463)  评论(0)    收藏  举报