概率相关

抛开最基本的中学课内概念和一些高端严格的定义,讲一下自己对算竞层面的概率的一些理解和重要方法。

基本概念

以掷三个硬币为例讲几个概念,以 \(H\) 代表正面,\(T\) 代表反面。

  • 样本点 \(\omega\):实验的基本结果称为样本点,本例中每轮掷硬币的结果为一个样本点。比如 \(HHT\)
  • 样本空间 \(\Omega\):一切可能的样本点组成的集合。整个样本空间为 \(HHH,HHT,HTH,HTT,THH,THT,TTH,TTT\)
  • 随机事件 \(A\),某些样本点组成的子集,其为样本空间的一个子集。比如至少两个硬币为正面这一事件包括 \(HHH,HHT,HTH,THH\) 四个样本点。
  • 离散随机变量 \(X\),定义在样本空间 \(\Omega\) 上,将样本转为实数的函数,用以表示随机现象的结果。比如 \(X\) 可以定义为正面硬币的个数,此时 \(X(HHT)=2\)
  • 概率的古典概型:事件 \(A\) 的概率 \(P(A)\),定义为在样本空间 \(\Omega\) 上,\(\frac{事件 A 所含有的样本点数}{样本空间 \Omega 的样本点总数}\)。此定义显然满足非负和可加。比如事件 \(A\) 为出现 \(2\) 次正面,则 \(P(A)=P(X=2)\)\(X=2\) 的样本点有 \(HHT,HTH,THH\),共计三个,而样本空间总共有八个样本点,故 \(P(X=2)=\frac{3}{8}=37.5\%\)。古典概型是最常见的,本质是考察组合数学能力。
    除了古典概型外,竞赛中还会涉及到几何概型,即以几何空间占总空间的比例确定概率。同样是满足非负以及可加的。

概率

分布函数
有时候求 \(P(X=x)\) 不容易,可以求 \(P(X \le x)-P(X \le x-1)\)
比如求丢 \(10\) 次骰子,出现的最大数字为 \(4\) 的概率,定义 \(X\) 为出现的最大数字,\(P(X=4)=P(x\le 4)-P(x\le 3)\),右侧是比较好求的。

条件概率

条件概率,如果两个事件有相关性,比如已知 \(100\) 人中缺钙率为 \(10\%\),检查前 \(80\) 人后发现 \(9\) 人缺钙,那么剩下 \(20\) 人缺钙的概率就不再是 \(10\%\),而是 \(5\%\)。又或者某地一年任意一天下雨的概率为 \(p\%\),现在已知进入雨季,问明天的下雨概率,结果应该比 \(p\%\) 大一些。
一个更直接的例子是,掷骰子,出现偶数(事件 \(A\))的概率是 \(50\%\)。现在已知掷出的是大于等于 \(4\) 的数 (事件 \(B\)),可以发现,在发生事件 \(B\) 时,样本点只有 \(4,5,6\),那么此时为偶数的概率为 \(66.67\%\)

条件概率写作 \(P(B|A)\),意义为已知事件 \(A\) 发生时,事件 \(B\) 发生的概率。
那么 \(AB\) 同时发生的概率 \(P(AB)=P(B|A)P(A)\)。即 \(A\) 发生的概率乘上在 \(A\) 发生的情况下,\(B\) 发生的概率。同理也有 \(P(AB)=P(A|B)P(B)\)

如果有若干个事件 \(A_i\) 满足:
\(A_i \cap A_j=\empty\)\(A_1 \cup A_2 \cup A_3...\cup A_n=\Omega\),即他们相互之间互斥,且并集构成整个样本空间,则有 \(\sum P(A_i) = 1\)
\(B=B\Omega=B (\cup A_i)=\cup BA_i\)。由于 \(A_i\) 互斥,所以 \(BA_i\) 互斥;。
那么有 \(P(B)=\sum P(BA_i)=\sum P(B|A_i)P(A_i)\)

贝叶斯公式

有一个很精妙的公式:
由于 \(P(A_i|B)P(B)=P(A_iB)\),则 \(P(A_i|B)=\frac{P(A_iB)}{P(B)}\)
代入 \(P(B)=\sum P(B|A_i)P(A_i)\)
即得 \(P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum P(B|A_i)P(A_i)}\)
即我们在知道各个 \(A_i\) 的发生概率,以及 \((A_i)\) 事件发生时 \(B\) 事件发生的概率,可以反推如果 \(B\) 事件发生了,那么 \(A_i\) 发生的概率。
回到前面掷骰子的案例,要求 \(P(A|B)\)
\(P(A|B)=\frac{P(B|A)P(A)}{P(B)}=\frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|\overline A)P(\overline A)}=\frac{66.67\% \times 50\%}{66.67\% \times 50\%+33.33\% \times 50\%}=66.67\%\)

举个反直觉的例子,假定某种疾病的感染率为 \(0.01\%\),现有某种检测手段,假阳性概率为 \(1\%\),假阴性概率为 \(0.1\%\)。现在有一个人检测为阳性,问他患病的概率为?
患病为 \(B\),不患病为 \(\overline B\);检测阳性为 \(A\),阴性为 \(\overline A\)
直接算是很绕的,可以利用贝叶斯公式,要求 \(P(B|A)\)
\(P(B|A)=\frac{P(A|B)P(B)}{P(A|B)P(B)+P(A|\overline B)P(\overline B)}\)
把公式里的变量对应一下:
\(P(\overline A|B)\):假阴性率,在患病的情况下被检测出不患病概率 \(0.1\%\)
\(P(A|B)\):在患病的情况下被检测出患病概率 \(99.9\%\)
\(P(A|\overline B)\):假阳性率,在不患病的情况下被检测出患病 \(1\%\)
\(P(\overline A|\overline B)\):在不患病的情况下被检测出不患病 \(99\%\)
\(P(B)\):总体患病概率 \(0.01\%\)
\(P(\overline B)\):总体不患病概率 \(99.99\%\)

\(P(B|A)=\frac{99.9\% \times 0.01\%}{99.9\% \times 0.01\% + 1\% \times 99.99\%}=0.99\%\)
意味着该检测手段,如果查出一个人为阳性,其患病的概率仅为 \(1\%\)。这是由于总体患病率太低,因此假阳性数量比真阳性多得多。因此,当面对一个阳性,他大概率是没病的。
从定量角度,假阳性是来自分母第二项,因为不患病比例太高,所以即便只有 \(1\%\) 的假阳率,都会产生大量假阳案例,因此对于稀有病,应该严格控制假阳率。

posted @ 2026-06-12 22:52  qwynick  阅读(8)  评论(0)    收藏  举报