第二章 概率

什么叫不确定性

不确定性可以分为两种:

  1. 认知不确定性(epistemic uncertainty),也称系统不确定性(systematic uncertainty)
    这种不确定性源自有限的数据集大小。随着观测数据的增多,例如更多良性和恶性皮肤病变图像样本,系统可以更好地预测新样本的类别。

然而,即使数据集无限大,也仍然无法达到完美的准确率,因为存在:

  1. 偶然不确定性(aleatoric uncertainty),也称内在(intrinsic)不确定性随机(stochastic)不确定性 ,有时简称噪声(noise)
    一般来说,噪声源自人们只能观察到关于世界的部分信息。因此,一种从源头减小这种不确定性的方法是收集不同类型的数据。

这两种不确定性都可以用概率论(probability theory) 的框架来处理,它为不确定性的量化和操作提供了统一的范式,因此成为机器学习的核心之一。

概率可以由两个简单的公式控制,即加和法则(sum rule)和乘积法则(product rule)。

概率法则

1. 加和法则(sum rule)

  • 有两个随机变量:
    • \(X\):取值为 \(\{x_1, x_2, \dots, x_L\}\)
    • \(Y\):取值为 \(\{y_1, y_2, \dots, y_M\}\)
  • 总共有 \(N\) 个观测样本,记录每对取值 \((x_i, y_j)\) 出现的次数为 \(n_{ij}\)
  1. 联合概率(Joint Probability)

    \[p(X = x_i, Y = y_j) = \frac{n_{ij}}{N} \]

  2. 边缘概率(Marginal Probability)
    不考虑 \(Y\) 的情况下,\(X = x_i\) 的边缘概率为:

    \[p(X = x_i) = \frac{c_i}{N}, \quad \text{其中 } c_i = \sum_j n_{ij} \]

  3. 边缘概率的归一性
    总概率为 1:

    \[\sum_{i=1}^{L} p(X = x_i) = 1 \]

  4. 边缘概率的加和表示(加和法则)
    从联合概率中求得边缘概率:

    \[p(X = x_i) = \sum_{j=1}^{M} p(X = x_i, Y = y_j) \]


NOTE:

  • 联合概率:表示 \(X = x_i\)\(Y = y_j\) 同时发生的概率。
  • 边缘概率:对 \(Y\) 求和,得到只关注 \(X\) 的概率,为什么叫"marginal"呢?是因为这个值曾经用于表示某一个概率矩阵中某一行或某一列的概率加和,而这个加和在table中往往放在margin(表头)的位置,所以叫marginal distribution,翻译过来变成了边缘概率。
  • 默认假设:用频率比值表示概率,隐含假设样本量 \(N \to \infty\),频率逼近真实概率。

2. 乘积法则(Product Rule)

  1. 条件概率(Conditional Probability)
    我们关注的是在给定 \(X = x_i\) 的条件下,\(Y = y_j\) 的概率,也称作条件概率(Conditional Probability)
    其计算方法是:在第 \(i\) 列中统计落入单元格 \((i, j)\) 的样本占比:

\[p(Y = y_j \mid X = x_i) = \frac{n_{ij}}{c_i} \]

其中:

  • \(n_{ij}\):同时满足 \(X = x_i, Y = y_j\) 的样本数;
  • \(c_i\):所有满足 \(X = x_i\) 的样本总数。
  1. 归一化性质

对所有可能的 \(y_j\) 进行求和,有:

\[\sum_{j=1}^{M} p(Y = y_j \mid X = x_i) = 1 \]

这说明条件概率在每个 \(X = x_i\) 下是归一化的

  1. 联合概率的展开式

利用条件概率与边缘概率的关系,可以得到联合概率的展开式:

\[p(X = x_i, Y = y_j) = \frac{n_{ij}}{N} = \frac{n_{ij}}{c_i} \cdot \frac{c_i}{N} = p(Y = y_j \mid X = x_i) \cdot p(X = x_i) \]

这个公式被称为概率的乘积法则(Product Rule),核心含义是:

联合概率 = 条件概率 × 边缘概率

为简化记号,我们记:

  • \(p(X)\):变量 \(X\) 的分布(边缘概率)
  • \(p(X, Y)\):联合概率,即 \(X\)\(Y\) 同时取某值的概率
  • \(p(Y \mid X)\):在给定 \(X\) 的条件下,\(Y\) 的条件概率

概率论中最基础的两条规则;它们构成了后续所有概率机制的基础。

1. 加和法则(Marginalization Rule)

\[p(X) = \sum_Y p(X, Y) \]

含义:边缘概率等于对联合概率在另一个变量上的求和。也就是为了得到 \(X\) 的概率,我们把所有可能的 \(Y\)\((X, Y)\) 的联合概率加总。

2. 乘积法则(Product Rule)

\[p(X, Y) = p(Y \mid X) \cdot p(X) \]

含义:联合概率等于:给定 \(X\) 的条件下 \(Y\) 的概率 × \(X\) 的边缘概率。这是通用表达,不再局限于频数表示(如 \(n_{ij}\)\(c_i\) 等),而是抽象为任意概率。

贝叶斯

频率学派(frequentist)视角下统计学的基础:根据可重复事件的频率来定义概率。

结合决策论(decision theory),这些规则理论上允许我们在给定的已知信息上做出最优预测——尽管我们获得的信息可能是不完整的或模糊的。

posted @ 2025-06-17 14:51  AAA建材王师傅  阅读(100)  评论(0)    收藏  举报