Distributions
Distributions
Geometric distribution
记作:\(X\sim Geo(p)\)
使用场景:求\(r-1\)次失败,第\(r\)次终获成功的概率。
概率计算公式:
- \(P(X=r)=(1-p)^{r-1}p=q^{r-1}p\)
- \(P(X>r)=(1-p)^r\)
如果要求成功的次数大于r次的概率,那必有r次的失败的trial。
- \(P(X\le r)=1-P(x>r)=1-(1-p)^r\)
期望和方差:\(EX=\frac{1}{p}, Var(X)=\frac{q}{p^2}\)
Binomial distribution
记作:\(X\sim B(n, p)\)
使用场景:
- 你在进行一系列的独立试验
- 这些独立试验中可能会成功或者失败,成功的概率在每一次试验中都是相同的
- 进行的是有限次的实验。
特殊情况:Single Trial:
| \(X\) | 0 | 1 |
|---|---|---|
| \(P\) | \(q\) | \(p\) |
\(E(X)=0\cdot q+1\cdot p=p\)
\(Var(X)=E(X^2)-(E(X))^2=p-p^2=pq\)
对n次试验的期望和方差:
\(E(X)=np, Var(X)=npq\)
Poisson distribution
和其他分布不同的地方:没有一系列的独立试验。取而代之的是,我们有这样一种情况——我们知道比如说一个仪器发生故障的概率。
记作:\(X\sim Po(\lambda)\)
计算概率的公式:\(P(X=r)=\frac{e^{-\lambda} \lambda^{r}}{r!}\)
期望和方差:\(E(X)=\lambda, Var(X)=\lambda\)
Normal Distribution
线性变换和独立试验
\(aX+b \sim N(a\mu +b, a^2 \sigma^2)\)
\(X_1+X_2+...+X_n \sim N(n\mu, n\sigma^2)\)
\(X+Y \sim N(\mu_x+\mu_y, \sigma^2_x+\sigma^2_y)\)
\(X-Y \sim N(\mu_x-\mu_y, \sigma^2_x+\sigma^2_y)\)
使用正态分布去近似二项分布
The Possion distribution can approximate the binomial in some situations, but the normal can in others.
When: 通常可以在np和nq都大于5(有的书是写大于10)的时候使用正态分布近似二项分布。
If \(X\sim B(n, p)\) and \(np>5\) and \(nq>5\), you can use \(X\sim N(np, npq)\) to approximate the binomial distribution.
这种近似是有一定的误差的。比如现在有一个二项分布为\(X\sim B(12, 0.5)\),我们想计算\(P(X<6)\)。如果使用二项分布的公式,则会得到\(P(X<6)=P(X=0)+P(X=1)+...+P(X=5)=0.387\),而如果近似为正态分布\(X\sim N(6,3)\),则会计算为\(P(X<6)=P(z<0)=0.5\)。
差异的来源是因为,二项分布是离散的分布,而正态分布是连续的分布,因此在计算P(X<6)时,有如下图所示的差异。

当我们从离散概率分布中提取整数并将其转换为连续尺度时,我们不会孤立地查看这些精确值。取而代之的是,我们查看舍入到每个值的数字范围。比如我们把离散值6视作连续值时,我们看的是\([5.5, 6.5)\)这个区间。这就是所谓的continuity correction。**A continuity correction is the small adjustment that needs to be made when you translat discrete values onto a continuous scale.
这回,如果我们一开始就计算\(P(X<5.5)=P(z<\frac{5.5-6}{\sqrt{3}}=0.3859\)(to 2 decimal places)的话,就更接近原来的值了。
如果用正态分布近似二项分布,则需要应用连续性校正以确保结果准确
Continuity Correction
使用正态分布近似二项分布的要点在于我们要应用正确的continuity correction。上面的例子可以看出,一点微小的取值变化都可以导致概率的不同。
- 计算\(P(X\le a)\)时,需要确保选择的范围包括离散值\(a\)。这意味着如果我们使用正态分布计算\(P(X\le a)\),实际上我们需要计算\(P(X<a+0.5)\)来得到一个好的近似值。
- 计算\(P(X\ge b)\)时,需要确保选择的范围包括离散值\(b\)。这意味着如果我们使用正态分布计算\(P(X\ge b)\),实际上我们需要计算\(P(X<b-0.5)\)来得到一个好的近似值。
- 计算\(P(a \le X \le b)\)时,需要确保选择的范围包括离散值\(a\)和\(b\)。这意味着如果我们使用正态分布计算\(P(a \le X \le b)\),实际上我们需要计算\(P(a-0.5 < X< b+0.5)\)来得到一个好的近似值。
![image]()
注:如果计算的是不含等号的概率,如\(P(X < a)\), \(P(X > b)\), \(P(a<X<b)\)时,我们要做的应该是选择的范围要把离散值排除在外。
何时采用Poisson distribution或者normal distribution?
如果np>5且nq>5,则使用正态分布;如果n>50且p<0.1,则使用Poisson分布。
使用正态分布去近似泊松分布
下图是不同大小的\(\lambda\)的泊松分布的形状:

左右图分别是\(\lambda\)值较小和较大的泊松分布形状。可以发现当\(\lambda\)较小时,泊松分布是不对称的。而当\(\lambda\)较大时,泊松分布看上去是对称的钟形。通常来说,当\(\lambda>15\)时,Poisson分布就类似于正态分布了。如果\(X\sim Po(\lambda)\)以及\(\lambda>15\),我们就可以使用\(X\sim N(\lambda, \lambda)\)近似Poisson分布。
如:现有X~Po(40),则用正态分布近似为X~N(40,40)。现在我们需要计算P(X<52),则用正态分布时我们计算的是P(X<51.5)(continuity correction)=P(z<1.82)=0.9656

浙公网安备 33010602011771号