数据统计分析 — 二项分布

离散型随机变量的概率分布 - 二项分布

  • 伯努利实验
  • 泊松分布

工作中用到的比较少

在现实生活中,许多事件的结果往往只有两个。例如:抛硬币,正面朝上的结果只有两个:国徽或面值;检查某个产品的质量,其结果只有两个:合格或不合格;购买彩票,开奖后,这张彩票的结果只有两个:中奖或没中奖;拨打女朋友电话:接通或没接通。。。以上这些事件都可被称为伯努利试验

伯努利试验是单次随机试验,只有"成功(值为1)"或"失败(值为0)"这两种结果,是由瑞士科学家雅各布·伯努利(1654 - 1705)提出来的。

其概率分布称为伯努利分布(Bernoulli distribution),也称为两点分布或者0-1分布,是最简单的离散型概率分布。我们记成功概率为p(0≤p≤1),则失败概率为q=1-p,则概率:
image

而二项分布是指在只有两个结果的n次独立的伯努利试验中,所期望的结果出现次数的概率

在单次试验中,结果A出现的概率为p,结果B出现的概率为q,p+q=1。那么在n=10,即10次试验中,结果A出现0次、1次、……、10次的概率各是多少呢?这样的概率分布呈现出什么特征呢?这就是二项分布所研究的内容。

案例:还是抛硬币,抛5次,计算2次正面朝上的概率
image
计算过程
image
假设某个试验是伯努利试验,其成功概率用p表示,那么失败的概率为q=1-p。进行n次这样的试验,成功了x次,则失败次数为n-x,发生这种情况的概率可用下面公式来计算:

二项分布公式
image
其中
image
是二项式的计算方式 !表示阶乘

上述案例使用Excel计算方式:

=BINOM.DIST(2,5,0.5,FALSE)

函数介绍

BINOM.DIST(number_s,trials,probability_s,cumulative)

BINOM.DIST 函数语法具有以下参数:

  • Number_s 必需。 试验的成功次数。
  • Trials 必需。 独立试验次数。总数
  • Probability_s 必需。 每次试验成功的概率。
  • cumulative 必需。 决定函数形式的逻辑值。 如果 cumulative 为 TRUE,则 BINOM.DIST 返回累积分布函数,即最多存在 number_s 次成功的概率;如果为 FALSE,则返回概率密度函数,即存在 number_s 次成功的概率。
    一个是包括之前的,一个是包含当前的次数,只计算2次。就用 FALSE,如果至少2次,还要包括0次、1次、2次

二项分布的特征:
1.进行n次相同条件下的相互独立的重复试验

2.每次试验,只有2个结果,成功或者失败

3.出现成功的概率P每次试验是相同的,失败的概率q也是,并且p+q=1

如果符合上面的条件,那就是二项分布,如果上述试验只进行一次,就叫做伯努利试验,也是就二项分布是n次伯努利试验的结果。

二项分布的均值(np)和方差分别(npq)
n: 重复次数(样本数)
p: 概率,期望的结果(成功的概率)
q: 1-p (失败的概率)
二项分布形状变化规律,可明显由下图观察出来。图中的横轴代表试验"成功"的次数;纵轴代表次数对应的概率;红线是均值为np、方差为npq的正态分布曲线。
image
由此可见,二项分布是一个概率分布族,随着试验次数n和成功概率p的不同而不同,且它与正态分布关系密切。在中间时,趋向正态分布,一般 >= 30 趋向于正态
二项分布在工作中并不经常用到,不过在赌场倒是挺有用的,有想去玩一把的同学可以深入研究一下。

https://zhuanlan.zhihu.com/p/123314439

posted @ 2023-10-27 15:34  VipSoft  阅读(30)  评论(0编辑  收藏  举报