文本分类的两种贝叶斯模型
伯努利模型和多项式模型
训练集:
| 文本号 | 文本内容 | 类别=china |
| 1 | Chinese Beijing Chinese | yes |
| 2 | Chinese Chinese Shanghai | yes |
| 3 | Chinese Macao | yes |
| 4 | Tokyo Japan Chinese | no |
测试集:
d=(Chinese, Chinese, Chinese, Tokyo, Japan)
----------------------------------
1.伯努利模型
P(c)= 类c下文件总数/整个训练样本的文件总数
P(tk|c)=(类c下包含单词tk的文件数+1)/(类c文件总数+k) (m=2, p=1/2,k是类别个数,二值分类时,k=2)
----------
先验概率计算:
类yes下总共有3个文件,类no下有1个文件,训练样本文件总数4
因此P(yes)=3/4, P(no)=1/4
类条件概率计算:
P(Chinese | yes)=(3+1)/(3+2)=4/5
P(Japan | yes)=P(Tokyo | yes)=(0+1)/(3+2)=1/5
P(Beijing | yes)= P(Macao|yes)= P(Shanghai |yes)=(1+1)/(3+2)=2/5
P(Chinese|no)=(1+1)/(1+2)=2/3
P(Japan|no)=P(Tokyo| no) =(1+1)/(1+2)=2/3
P(Beijing| no)= P(Macao| no)= P(Shanghai | no)=(0+1)/(1+2)=1/3
后验概率计算:
P(yes | d)=P(yes)×P(Chinese|yes) ×P(Japan|yes) ×P(Tokyo|yes)×(1-P(Beijing|yes)) ×(1-P(Shanghai|yes))×(1-P(Macao|yes))
=3/4×4/5×1/5×1/5×(1-2/5) ×(1-2/5)×(1-2/5)=81/15625≈0.005
P(no | d)= 1/4×2/3×2/3×2/3×(1-1/3)×(1-1/3)×(1-1/3)=16/729≈0.022
--------------
因此,这个文档不属于类别china
----------------------------------
2.多项式模型
P(c)= 类c下单词总数/整个训练样本的单词总数
P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|)
V是训练样本的单词表(即抽取单词,单词出现多次,只算一个)
|V|则表示训练样本包含多少种单词。
在这里,m=|V|, p=1/|V|。
------------------------
先验概率计算:
类yes下总共有8个单词,类no下总共有3个单词,训练样本单词总数为11
因此P(yes)=8/11, P(no)=3/11。
类条件概率计算:
P(Chinese | yes)=(5+1)/(8+6)=6/14=3/7
//类yes下单词Chinese在各个文档中出现过的次数之和+1/类yes下单词的总数(8)+总训练样本的不重复单词(6)
P(Japan | yes)=P(Tokyo | yes)= (0+1)/(8+6)=1/14
P(Chinese|no)=(1+1)/(3+6)=2/9
P(Japan|no)=P(Tokyo| no) =(1+1)/(3+6)=2/9
分母中的8,是指yes类别下textc的长度,也即训练样本的单词总数,6是指训练样本有Chinese,Beijing,Shanghai, Macao, Tokyo, Japan 共6个单词,3是指no类下共有3个单词。
后验概率计算:
P(yes | d)=(3/7)3×1/14×1/14×8/11=108/184877≈0.00058417
//Chinese Chinese Chinese Tokyo Japan
P(no | d)= (2/9)3×2/9×2/9×3/11=32/216513≈0.00014780
因此,这个文档属于类别china。
-----------------------------------------------
小结:
二者的计算粒度不一样:
多项式模型以单词为粒度,伯努利模型以文件为粒度。
二者的先验概率和类条件概率的计算方法不同。
二者的后验概率的计算方法不同:
计算后验概率时,对于一个文档d:
伯努利模型中,没有在d中出现,但是在全局单词表中出现的单词,也会参与计算,不过是作为“反方”参与的;
多项式模型中,只有在d中出现过的单词,才会参与后验概率计算,

浙公网安备 33010602011771号