朴素贝叶斯

一句话描述:在特征条件独立的情况下,学习(X,Y)的联合概率分布,给定新的X,计算后验概率最大的Y作为其输出。

基本方法

前提假设:

  • 条件独立假设指用于分类的特征在类确定的情况下是条件独立的。
  • 用于分类的特征的分布不受类别变量的影响。
  • 用于分类的特征向量均为布尔型随机变量。

过程:

  1. 利用训练数据估计出类别Y的先验概率分布\(p(Y=y_i)\)和条件概率分布\(P(X=x_k|Y=y_i)\),进而学习到了联合概率分布\(P(X=x_k,Y=y_i)= P(Y=y_i)P(X=x_k|Y=y_i)\)
  2. \(P(Y)P(X|Y)=P(X)|P(Y|X)\),最终需要的就是确定当前\(X\)下最大的\(P(Y=y_i|X)\),又\(P(X)\)对各个类来说值都是一样的,所以只需找出最大的\(P(Y=y_i)P(X|Y=y_i)\)
  3. 由于条件独立假设,\(P(X=(x_1,x_2,...,x_n)|Y=y_i)= P(X_1=x_1|Y=y_i) P(X_2=x_2|Y=y_i)…P(X_n=x_n|Y=y_i)\)\(X=(x_1,x_2,...,x_n)\)表示新实例特征向量值,\(X_j\)表示第\(j\)个特征。可以先计算每个特征的先验条件概率\(P(X_j=x_j|Y=y_i)\),再进行相乘得\(P(X=(x_1,x_2,...,x_n)|Y=y_i)\),从而得出每个类的\(P(Y=y_i)P(X=(x_1,x_2,...,x_n)|Y=y_i)\)
  4. 选择最大的\(P(Y=y_i)P(X=(x_1,x_2,...,x_n)|Y=y_i)\)对应的类作为新实例的预测类别。

极大似然估计

\[\begin{array}{c} P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, k=1,2, \ldots, K \\ \\ P\left(X^{(j)}=a_{j l} \mid Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}\\ \\ j=1,2, \ldots, n ; l=1,2, \ldots, S_{j} ; k =1,2, \ldots, K \end{array} \]

    式中,\(xi(j)\)是第\(i\)个样本的第\(j\)个特征;\(ajl\)是第\(j\)个特征的第\(l\)个值,\(N\)是样本量。

贝叶斯估计

    上述极大似然估计中,如果在训练集中某类某特征条件下无实例,则该特征该类别的后验概率将为0,不符合实际情况。因此,考虑修改\(P(X|Y)\),原分母表示某类的实例数,分子表示该类下该特征的实例数,现修改在分母上加上该特征的取值个数*某个正数,在分子上加上该正数。该正数为0时即为极大似然估计,该正数为1时即为拉普拉斯平滑。

\[\begin{array}{c} P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\lambda}{N+K \lambda}, k=1,2, \ldots, K \\\\ P_{\lambda}\left(X^{j}=a_{j l} \mid Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda} \\\\ j=1,2, \ldots, n ; l=1,2, \ldots, S_{j} ; k=1,2, \ldots, K \end{array} \]

    其中,\(ajl\)是第\(j\)个特征的第\(l\)个值,\(Sj\)为第\(j\)个特征可能的值的个数。

特征为连续性变量

    当特征为连续性变量时,朴素贝叶斯估计中的\(P(X_i|Y)\)需要改变形式,一种通常的做法是假设对于每个\(Y\)可能的离散值\(y_k\)来说,每个连续型变量\(X_i\)均为正态分布,其均值和方差依\(y_k\)\(X_i\)的不同而不同。记其均值和方差为:

\[\mu _{ik} = E[X_i|Y=y_k]\\ \sigma_{ik}^2 = E[(X_i-\mu_{ik})^2|Y=y_k] \]

    这里有\(2nK\)个参数需要独立估计得出。

    上述模型假设所有特征数据\(X\)均来自条件高斯分布,如果继续使用朴素贝叶斯的学习方法,则同样需要满足特征变量条件独立的假设,如果拥有更多的先验信息,则可以对参数加入更多的限制条件(如假设各特征变量的扰动项分布相同,则可以加入所有\(\sigma_{ik}\)均相等的限制条件)。

    求出参数极大似然估计量:

\[\hat \mu_{ik}= \frac 1 {\Sigma_j \delta(Y^j=y_k)}\Sigma_j X_i^j \delta(Y^j=y_k)\\ \hat \sigma_{ik}^2 = \frac 1 {\Sigma_j \delta(Y^j=y_k)} \Sigma_j (X_i^j- \hat\mu_{ik}^2)\delta(Y^j=y_k) \]

    \(j\)表示第\(j\)个训练样本,如果\(Y = y_k\)\(\delta(Y=y_k)=1\),否则为0,极大似然估计是有偏估计量,其最小方差无偏估计量(the minimum variance unbiased estimator,MVUE)为:

\[\hat \sigma_{ik}^2 = \frac 1 {(\Sigma_j \delta(Y^j=y_k))-1} \Sigma_j (X_i^j- \hat\mu_{ik}^2)\delta(Y^j=y_k) \]

posted @ 2020-11-25 22:57  unuliha  阅读(149)  评论(0)    收藏  举报