概率相关

抛开最基本的中学课内概念和一些高端严格的定义，讲一下自己对算竞层面的概率的一些理解和重要方法。

基本概念

以掷三个硬币为例讲几个概念，以 \(H\) 代表正面，\(T\) 代表反面。

样本点 \(\omega\)：实验的基本结果称为样本点，本例中每轮掷硬币的结果为一个样本点。比如 \(HHT\)。
样本空间 \(\Omega\)：一切可能的样本点组成的集合。整个样本空间为 \(HHH,HHT,HTH,HTT,THH,THT,TTH,TTT\)。
随机事件 \(A\)，某些样本点组成的子集，其为样本空间的一个子集。比如至少两个硬币为正面这一事件包括 \(HHH,HHT,HTH,THH\) 四个样本点。
离散随机变量 \(X\)，定义在样本空间 \(\Omega\) 上，将样本转为实数的函数，用以表示随机现象的结果。比如 \(X\) 可以定义为正面硬币的个数，此时 \(X(HHT)=2\)。
概率的古典概型：事件 \(A\) 的概率 \(P(A)\)，定义为在样本空间 \(\Omega\) 上，\(\frac{事件 A 所含有的样本点数}{样本空间 \Omega 的样本点总数}\)。此定义显然满足非负和可加。比如事件 \(A\) 为出现 \(2\) 次正面，则 \(P(A)=P(X=2)\)。\(X=2\) 的样本点有 \(HHT,HTH,THH\)，共计三个，而样本空间总共有八个样本点，故 \(P(X=2)=\frac{3}{8}=37.5\%\)。古典概型是最常见的，本质是考察组合数学能力。
除了古典概型外，竞赛中还会涉及到几何概型，即以几何空间占总空间的比例确定概率。同样是满足非负以及可加的。

概率

分布函数
有时候求 \(P(X=x)\) 不容易，可以求 \(P(X \le x)-P(X \le x-1)\)。
比如求丢 \(10\) 次骰子，出现的最大数字为 \(4\) 的概率，定义 \(X\) 为出现的最大数字，\(P(X=4)=P(x\le 4)-P(x\le 3)\)，右侧是比较好求的。

条件概率

条件概率，如果两个事件有相关性，比如已知 \(100\) 人中缺钙率为 \(10\%\)，检查前 \(80\) 人后发现 \(9\) 人缺钙，那么剩下 \(20\) 人缺钙的概率就不再是 \(10\%\)，而是 \(5\%\)。又或者某地一年任意一天下雨的概率为 \(p\%\)，现在已知进入雨季，问明天的下雨概率，结果应该比 \(p\%\) 大一些。
一个更直接的例子是，掷骰子，出现偶数（事件 \(A\))的概率是 \(50\%\)。现在已知掷出的是大于等于 \(4\) 的数（事件 \(B\)），可以发现，在发生事件 \(B\) 时，样本点只有 \(4,5,6\)，那么此时为偶数的概率为 \(66.67\%\)。

条件概率写作 \(P(B|A)\)，意义为已知事件 \(A\) 发生时，事件 \(B\) 发生的概率。
那么 \(AB\) 同时发生的概率 \(P(AB)=P(B|A)P(A)\)。即 \(A\) 发生的概率乘上在 \(A\) 发生的情况下，\(B\) 发生的概率。同理也有 \(P(AB)=P(A|B)P(B)\)。

如果有若干个事件 \(A_i\) 满足：
\(A_i \cap A_j=\empty\) 且 \(A_1 \cup A_2 \cup A_3...\cup A_n=\Omega\)，即他们相互之间互斥，且并集构成整个样本空间，则有 \(\sum P(A_i) = 1\)。
\(B=B\Omega=B (\cup A_i)=\cup BA_i\)。由于 \(A_i\) 互斥，所以 \(BA_i\) 互斥;。
那么有 \(P(B)=\sum P(BA_i)=\sum P(B|A_i)P(A_i)\)

贝叶斯公式

有一个很精妙的公式：
由于 \(P(A_i|B)P(B)=P(A_iB)\)，则 \(P(A_i|B)=\frac{P(A_iB)}{P(B)}\)
代入 \(P(B)=\sum P(B|A_i)P(A_i)\)，
即得 \(P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum P(B|A_i)P(A_i)}\)
即我们在知道各个 \(A_i\) 的发生概率，以及 \((A_i)\) 事件发生时 \(B\) 事件发生的概率，可以反推如果 \(B\) 事件发生了，那么 \(A_i\) 发生的概率。
回到前面掷骰子的案例，要求 \(P(A|B)\)，
\(P(A|B)=\frac{P(B|A)P(A)}{P(B)}=\frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|\overline A)P(\overline A)}=\frac{66.67\% \times 50\%}{66.67\% \times 50\%+33.33\% \times 50\%}=66.67\%\)。

举个反直觉的例子，假定某种疾病的感染率为 \(0.01\%\)，现有某种检测手段，假阳性概率为 \(1\%\)，假阴性概率为 \(0.1\%\)。现在有一个人检测为阳性，问他患病的概率为？
患病为 \(B\)，不患病为 \(\overline B\)；检测阳性为 \(A\)，阴性为 \(\overline A\)。
直接算是很绕的，可以利用贝叶斯公式，要求 \(P(B|A)\)：
\(P(B|A)=\frac{P(A|B)P(B)}{P(A|B)P(B)+P(A|\overline B)P(\overline B)}\)
把公式里的变量对应一下：
\(P(\overline A|B)\)：假阴性率，在患病的情况下被检测出不患病概率 \(0.1\%\)。
\(P(A|B)\)：在患病的情况下被检测出患病概率 \(99.9\%\)。
\(P(A|\overline B)\)：假阳性率，在不患病的情况下被检测出患病 \(1\%\)。
\(P(\overline A|\overline B)\)：在不患病的情况下被检测出不患病 \(99\%\)。
\(P(B)\)：总体患病概率 \(0.01\%\)。
\(P(\overline B)\)：总体不患病概率 \(99.99\%\)。

\(P(B|A)=\frac{99.9\% \times 0.01\%}{99.9\% \times 0.01\% + 1\% \times 99.99\%}=0.99\%\)
意味着该检测手段，如果查出一个人为阳性，其患病的概率仅为 \(1\%\)。这是由于总体患病率太低，因此假阳性数量比真阳性多得多。因此，当面对一个阳性，他大概率是没病的。
从定量角度，假阳性是来自分母第二项，因为不患病比例太高，所以即便只有 \(1\%\) 的假阳率，都会产生大量假阳案例，因此对于稀有病，应该严格控制假阳率。

posted @ 2026-06-12 22:52 qwynick 阅读(8) 评论(0) 收藏举报

刷新页面返回顶部

qwynick

概率相关

基本概念

概率

条件概率

贝叶斯公式

公告