朴素贝叶斯分类器
公式:
\[p(A|B) = \frac {p(B|A)*p(A)}{p(B)}
\]
解释:
\[类别(结果)A出现在特征B样本里的概率 = \frac {在已有的出现类别A的样本中特征B的概率*已有样本中类别A的总概率}{特征B在样本中的总概率}
\]
示例问题1:
假设一个学校里有60%男生和40%女生。女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子。
随机看到了一个穿裤子的学生,那么这个学生是女生的概率是多少?
\[ \begin{align}
特征:& 穿裤子 \\
类别:& 女生 \\
p(女生|穿裤子) & = \frac{p(穿裤子|女生)*p(女生)}{p(穿裤子)} \\
& = \frac{p(女生里穿裤子的人占比)*p(女生占比)}{p(穿裤子的总占比)} \\
& = \frac{0.5*0.4}{0.8} \\
& = 25\%
\end{align} \]
随机看到了一个穿裙子的学生,那么这个学生是男生的概率是多少?
\[ \begin{align}
p(男生|穿裙子) & = \frac{p(男生里穿群子的人占比)*p(男生占比)}{p(穿裙子的人的总占比)} \\
& = \frac{0*0.6}{0.2} \\
& = 0\%
\end{align} \]
公式扩展
前提:特征 X、Y、Z 相互独立无联系
\[p(A|XYZ) = \frac {p(XYZ|A)*p(A)}{p(XYZ)} = \frac {p(X|A)*p(Y|A)*p(Z|A)*p(A)}{p(X)*p(Y)*p(Z)}
\]
示例问题2:
如果一对男女朋友,男生想女生求婚,男生的四个特点分别是不帅,性格不好,身高矮,不上进,请判断一下女生是嫁还是不嫁?
已有样本如下:
| 样本 | 特征1 [外貌] | 特征2 [性格] | 特征3 [身高] | 特征3 [进取] | 类别A [嫁] |
|---|---|---|---|---|---|
| 1 | 帅 | 不好 | 矮 | 不上进 | 不嫁 |
| 2 | 不帅 | 好 | 矮 | 上进 | 不嫁 |
| 3 | 帅 | 好 | 矮 | 上进 | 嫁 |
| 4 | 不帅 | 好 | 高 | 上进 | 嫁 |
| 5 | 帅 | 不好 | 矮 | 上进 | 不嫁 |
| 6 | 不帅 | 不好 | 矮 | 不上进 | 不嫁 |
| 7 | 帅 | 好 | 高 | 不上进 | 嫁 |
| 8 | 不帅 | 好 | 中 | 上进 | 嫁 |
| 9 | 帅 | 好 | 中 | 上进 | 嫁 |
| 10 | 不帅 | 不好 | 高 | 上进 | 嫁 |
| 11 | 帅 | 好 | 矮 | 不上进 | 不嫁 |
| 12 | 帅 | 好 | 矮 | 不上进 | 不嫁 |
\[ \begin{align}
p(嫁|不帅、不好、矮、不上进) & = \frac {p(不帅、不好、矮、不上进|嫁)*p(嫁)}{p(不帅、不好、矮、不上进)} \\
& = \frac{p(不帅|嫁)*p(不好|嫁)*p(矮|嫁)*p(不上进|嫁)*p(嫁)}{p(不帅)*p(不好)*p(矮)*p(不上进)} \\
其中: & \\
p(嫁) & = \frac{1}{2} \qquad(12个样本里类别[嫁]占6个) \\
p(不帅|嫁) & = \frac{1}{2} \qquad(6个[嫁]的样本里不帅占3个) \\
p(不好|嫁) & = \frac{1}{6} \qquad(6个[嫁]的样本里不好占1个) \\
p(矮|嫁) & = \frac{1}{6} \qquad(6个[嫁]的样本里矮占1个) \\
p(不上进|嫁) & = \frac{1}{6} \qquad(6个[嫁]的样本里不上进占1个) \\
p(不帅) & = \frac{5}{12} \\
p(不好) & = \frac{1}{3}\\
p(矮) & = \frac{7}{12}\\
p(不上进) & = \frac{5}{12} \\
p(嫁|不帅、不好、矮、不上进) & = \frac{\frac{1}{2}*\frac{1}{6}*\frac{1}{6}*\frac{1}{6}*\frac{1}{2}}{\frac{5}{12}*\frac{1}{3}*\frac{7}{12}*\frac{5}{12}} \\
& = \frac{1}{864}*\frac{22464}{175} \\
& \approx 14.86\%
\end{align} \]

浙公网安备 33010602011771号