贝叶斯学习的核心不是直接判断“它是A还是B”，而是计算“它是A的概率是多少，它是B的概率是多少”，然后选概率大的那个。Pci∣x∝Px∣ciPciPcixciPx∣cicixPci∣xxci结论：贝叶斯分类器的训练过程，本质上就是在统计数据，估计先验概率和似然概率。 - 指南

第一阶段：贝叶斯分类器核心 (基于课件 P1-18)

贝叶斯学习的核心不是直接判断“它是A还是B”，而是计算“它是A的概率是多少，它是B的概率是多少”，然后选概率大的那个。

核心公式是贝叶斯公式： $P(ci∣x)∝P(x∣ci)P(ci)P(c_i|x) \propto P(x|c_i)P(c_i)$ 我们需要理解这三个术语：
- $P(c_i)$ - 先验概率 (Prior): 在没看具体特征 $x$ 之前，我们认为它是类别 $c_i$ 的概率（例如：在该季节，买到好瓜的概率本身有多大）。
- $P(x|c_i)$ - 似然 (Likelihood) / 类条件概率: 如果它是类别 $c_i$ （比如好瓜），那么它长成特征 $x$ （比如“根蒂蜷缩”）的概率有多大。
- $P(c_i|x)$ - 后验概率 (Posterior): 我们最终想求的——看到特征 $x$ 后，它是类别 $c_i$ 的概率。

结论：贝叶斯分类器的训练过程，本质上就是在统计数据，估计先验概率和似然概率。

在实际应用中，样本 $x$ 通常含有很多属性（比如色泽、根蒂、敲声等）。如果这些属性之间有关联，计算 $P (x ∣ c)$ 会非常复杂。

为了简化计算，引入了“朴素”假设：假设 $x$ 的各维属性是相互独立的。于是公式变成了连乘的形式： $\propto P(c) \prod_{i=1}^{d} P(x_i|c)$

这意味着我们只需要单独统计“好瓜里有多少是青绿的”、“好瓜里有多少是蜷缩的”，然后把它们乘起来即可，不需要考虑“青绿且蜷缩”这种情况出现的频率，极大地降低了计算难度。

步骤 A：算先验概率 $P (c)$ 训练集中共有17个瓜，好瓜8个，坏瓜9个。

步骤 B：算离散属性的条件概率 $P(x_i|c)$ 比如对于“色泽=青绿”：

posted @ 2026-01-07 14:44 gccbuaa 阅读(5) 评论(0) 收藏举报

刷新页面返回顶部