朴素贝叶斯分类器

1.概率论知识

    (1) 条件概率

        $P(B|A)=\frac{P(AB)}{P(A)}$

    (2)全概率公式

        设实验E的样本空间为S,A为E的事件,B1 ,B2,....B为S的一个划分,且$P(B_{i})> 0$,(i=1,2,3...n),则

        $P(A)=P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})+....+P(A|B_{n})P(B_{n})$

    (3)贝叶斯(Bayes)公式

        设实验E的样本空间为S,A为E的事件,B1 ,B2,....B为S的一个划分,且$ P(A)> 0, P(B_{i})> 0$,(i=1,2,3...n),则

        $P(B_{i}|A)=\frac{P(A|B_{i})P(B_{i})}{\sum_{j=1}^{n}P(A|B_{j})P(B_{j})},i=1,2,3,...,n$

 

2.朴素贝叶斯的原理

     朴素贝叶斯分类是一种十分简单的分类算法,称它为朴素是因为他的思想原理很简单。对于给出的待分类项,

     求解在此项出现的条件下各个类别出现的概率, 在哪个类别下的概率最大,就认为此待分类项属于哪个类别。

    朴素贝叶斯的定义如下:

    (1)设 $x=\left \{ a_{1},a_{2},\cdots ,a_{n}\right \}$为一个待分类项,而每个a为x的一个特征属性。

    (2)设有类别集合为$C=\left \{ y_{1},y_{2},\cdots ,y_{k}\right \}$

    (3)计算 $P(y_{1}|x),P(y_{2}|x),\cdots ,P(y_{k}|x)$

    (4)那么 $P(y_{k}|x)=max\left \{ P(y_{1}|x),P(y_{2}|x),\cdots ,P(y_{n}|x) \right \}$,则$x\in y_{k}$

    那么求解的关键在于步骤(3),如何求解$P(y_{k}|x):$

     如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:

      $P(y_{k}|x)=\frac{P(x|y_{k})P(y_{k})}{P(x)}$

     因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:

     $P(x|y_{k})P(y_{k})=P(a_{1}|y_{k})P(a2_{}|y_{k})\cdots P(a_{n}|y_{k})P(y_{k})=P(y_{k})\coprod_{j=1}^{n} P(a_{j}|y_{k})$

 

 3.scikit-learn中三种朴素贝叶斯分类器

    (1)高斯朴素贝叶斯分类器(GaussianNB), 

         GaussianNB适用于连续型特征数据。对于非离散型特征,是无法通过数据集来计算出该特征值的概率,此外当数据集的样本数一比较小时,

         无法将特征值划分到某个区间来计算概率。因此,当遇到这样的问题时,我们假设在指定类别下该特征的分布是符合高斯分布,

         那么就可以通过高斯分布函数来计算出任意特征值所对应的概率。即在类别$y_{k}$下,特征x的概率为:

                $P(x|y_{k})=P(x)=\frac{1}{\delta \sqrt{2\pi}}e^{-\tfrac{(x-\mu )^{2}}{2\sigma ^{2}}}$

         其中µ为特征x的均值,σ为特征x标准差。

     (2)伯努利朴素贝叶斯分类器(BernoulliNB)

           BernoulliNB主要用于文本分类,它假设文本中单词符合伯努利分布,即单词为出现或者没有出现进行标记。

          因此一个单词在同一词组内无论出现多少次都记作1,没出现记作0,用0,1最为该单词的特征值。

     (3)多项式朴素贝叶斯(MultinomialNB)

          多项式朴素贝叶斯也是多用于文本处理,其原理和计算的流程和伯努利朴素贝叶斯基本一致,唯一的区别在于单词的计数方式,

         在多项式朴素贝叶斯中,我们将单词在词组中出现的次数作为特征。

 

 4.朴素贝叶斯的优缺点

   优点: 算法逻辑简单,易于实现,分类过程中时空开销小。

   缺点:理论上,朴素贝叶斯模型假设各个特征属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。

 

 

参考:分类算法之朴素贝叶斯分类

           伯努利朴素贝叶斯分类器

 

posted @ 2020-10-14 23:07  流年记忆  阅读(425)  评论(0)    收藏  举报