Distributions

Geometric distribution

记作：\(X\sim Geo(p)\)

使用场景：求\(r-1\)次失败，第\(r\)次终获成功的概率。

概率计算公式：

\(P(X=r)=(1-p)^{r-1}p=q^{r-1}p\)
\(P(X>r)=(1-p)^r\)

如果要求成功的次数大于r次的概率，那必有r次的失败的trial。
\(P(X\le r)=1-P(x>r)=1-(1-p)^r\)

期望和方差：\(EX=\frac{1}{p}, Var(X)=\frac{q}{p^2}\)

Binomial distribution

记作：\(X\sim B(n, p)\)

使用场景：

你在进行一系列的独立试验
这些独立试验中可能会成功或者失败，成功的概率在每一次试验中都是相同的
进行的是有限次的实验。

特殊情况：Single Trial:

\(X\)	0	1
\(P\)	\(q\)	\(p\)

\(E(X)=0\cdot q+1\cdot p=p\)
\(Var(X)=E(X^2)-(E(X))^2=p-p^2=pq\)

对n次试验的期望和方差：
\(E(X)=np, Var(X)=npq\)

Poisson distribution

和其他分布不同的地方：没有一系列的独立试验。取而代之的是，我们有这样一种情况——我们知道比如说一个仪器发生故障的概率。

记作：\(X\sim Po(\lambda)\)

计算概率的公式：\(P(X=r)=\frac{e^{-\lambda} \lambda^{r}}{r!}\)

期望和方差：\(E(X)=\lambda, Var(X)=\lambda\)

Normal Distribution

线性变换和独立试验

\(aX+b \sim N(a\mu +b, a^2 \sigma^2)\)
\(X_1+X_2+...+X_n \sim N(n\mu, n\sigma^2)\)
\(X+Y \sim N(\mu_x+\mu_y, \sigma^2_x+\sigma^2_y)\)
\(X-Y \sim N(\mu_x-\mu_y, \sigma^2_x+\sigma^2_y)\)

使用正态分布去近似二项分布

The Possion distribution can approximate the binomial in some situations, but the normal can in others.

When: 通常可以在np和nq都大于5(有的书是写大于10)的时候使用正态分布近似二项分布。
If \(X\sim B(n, p)\) and \(np>5\) and \(nq>5\), you can use \(X\sim N(np, npq)\) to approximate the binomial distribution.

这种近似是有一定的误差的。比如现在有一个二项分布为\(X\sim B(12, 0.5)\)，我们想计算\(P(X<6)\)。如果使用二项分布的公式，则会得到\(P(X<6)=P(X=0)+P(X=1)+...+P(X=5)=0.387\)，而如果近似为正态分布\(X\sim N(6,3)\)，则会计算为\(P(X<6)=P(z<0)=0.5\)。
差异的来源是因为，二项分布是离散的分布，而正态分布是连续的分布，因此在计算P(X<6)时，有如下图所示的差异。

当我们从离散概率分布中提取整数并将其转换为连续尺度时，我们不会孤立地查看这些精确值。取而代之的是，我们查看舍入到每个值的数字范围。比如我们把离散值6视作连续值时，我们看的是\([5.5, 6.5)\)这个区间。这就是所谓的continuity correction。**A continuity correction is the small adjustment that needs to be made when you translat discrete values onto a continuous scale.

这回，如果我们一开始就计算\(P(X<5.5)=P(z<\frac{5.5-6}{\sqrt{3}}=0.3859\)(to 2 decimal places)的话，就更接近原来的值了。

如果用正态分布近似二项分布，则需要应用连续性校正以确保结果准确

Continuity Correction

使用正态分布近似二项分布的要点在于我们要应用正确的continuity correction。上面的例子可以看出，一点微小的取值变化都可以导致概率的不同。

计算\(P(X\le a)\)时，需要确保选择的范围包括离散值\(a\)。这意味着如果我们使用正态分布计算\(P(X\le a)\)，实际上我们需要计算\(P(X<a+0.5)\)来得到一个好的近似值。
计算\(P(X\ge b)\)时，需要确保选择的范围包括离散值\(b\)。这意味着如果我们使用正态分布计算\(P(X\ge b)\)，实际上我们需要计算\(P(X<b-0.5)\)来得到一个好的近似值。
计算\(P(a \le X \le b)\)时，需要确保选择的范围包括离散值\(a\)和\(b\)。这意味着如果我们使用正态分布计算\(P(a \le X \le b)\)，实际上我们需要计算\(P(a-0.5 < X< b+0.5)\)来得到一个好的近似值。

注：如果计算的是不含等号的概率，如\(P(X < a)\), \(P(X > b)\), \(P(a<X<b)\)时，我们要做的应该是选择的范围要把离散值排除在外。
何时采用Poisson distribution或者normal distribution?
如果np>5且nq>5，则使用正态分布；如果n>50且p<0.1，则使用Poisson分布。

使用正态分布去近似泊松分布

下图是不同大小的\(\lambda\)的泊松分布的形状：

左右图分别是\(\lambda\)值较小和较大的泊松分布形状。可以发现当\(\lambda\)较小时，泊松分布是不对称的。而当\(\lambda\)较大时，泊松分布看上去是对称的钟形。通常来说，当\(\lambda>15\)时，Poisson分布就类似于正态分布了。如果\(X\sim Po(\lambda)\)以及\(\lambda>15\)，我们就可以使用\(X\sim N(\lambda, \lambda)\)近似Poisson分布。

如：现有X~Po(40)，则用正态分布近似为X~N(40,40)。现在我们需要计算P(X<52)，则用正态分布时我们计算的是P(X<51.5)(continuity correction)=P(z<1.82)=0.9656

posted @ 2022-09-07 16:05 Lim_YK 阅读(65) 评论(0) 收藏举报

刷新页面返回顶部

limyk

Distributions

Distributions

Geometric distribution

Binomial distribution

Poisson distribution

Normal Distribution

线性变换和独立试验

使用正态分布去近似二项分布

Continuity Correction

使用正态分布去近似泊松分布

公告