朴素贝叶斯
一句话描述:在特征条件独立的情况下,学习(X,Y)的联合概率分布,给定新的X,计算后验概率最大的Y作为其输出。
基本方法
前提假设:
- 条件独立假设指用于分类的特征在类确定的情况下是条件独立的。
- 用于分类的特征的分布不受类别变量的影响。
- 用于分类的特征向量均为布尔型随机变量。
过程:
- 利用训练数据估计出类别Y的先验概率分布\(p(Y=y_i)\)和条件概率分布\(P(X=x_k|Y=y_i)\),进而学习到了联合概率分布\(P(X=x_k,Y=y_i)= P(Y=y_i)P(X=x_k|Y=y_i)\)。
- \(P(Y)P(X|Y)=P(X)|P(Y|X)\),最终需要的就是确定当前\(X\)下最大的\(P(Y=y_i|X)\),又\(P(X)\)对各个类来说值都是一样的,所以只需找出最大的\(P(Y=y_i)P(X|Y=y_i)\)。
- 由于条件独立假设,\(P(X=(x_1,x_2,...,x_n)|Y=y_i)= P(X_1=x_1|Y=y_i) P(X_2=x_2|Y=y_i)…P(X_n=x_n|Y=y_i)\),\(X=(x_1,x_2,...,x_n)\)表示新实例特征向量值,\(X_j\)表示第\(j\)个特征。可以先计算每个特征的先验条件概率\(P(X_j=x_j|Y=y_i)\),再进行相乘得\(P(X=(x_1,x_2,...,x_n)|Y=y_i)\),从而得出每个类的\(P(Y=y_i)P(X=(x_1,x_2,...,x_n)|Y=y_i)\)。
- 选择最大的\(P(Y=y_i)P(X=(x_1,x_2,...,x_n)|Y=y_i)\)对应的类作为新实例的预测类别。
极大似然估计
式中,\(xi(j)\)是第\(i\)个样本的第\(j\)个特征;\(ajl\)是第\(j\)个特征的第\(l\)个值,\(N\)是样本量。
贝叶斯估计
上述极大似然估计中,如果在训练集中某类某特征条件下无实例,则该特征该类别的后验概率将为0,不符合实际情况。因此,考虑修改\(P(X|Y)\),原分母表示某类的实例数,分子表示该类下该特征的实例数,现修改在分母上加上该特征的取值个数*某个正数,在分子上加上该正数。该正数为0时即为极大似然估计,该正数为1时即为拉普拉斯平滑。
其中,\(ajl\)是第\(j\)个特征的第\(l\)个值,\(Sj\)为第\(j\)个特征可能的值的个数。
特征为连续性变量
当特征为连续性变量时,朴素贝叶斯估计中的\(P(X_i|Y)\)需要改变形式,一种通常的做法是假设对于每个\(Y\)可能的离散值\(y_k\)来说,每个连续型变量\(X_i\)均为正态分布,其均值和方差依\(y_k\)和\(X_i\)的不同而不同。记其均值和方差为:
这里有\(2nK\)个参数需要独立估计得出。
上述模型假设所有特征数据\(X\)均来自条件高斯分布,如果继续使用朴素贝叶斯的学习方法,则同样需要满足特征变量条件独立的假设,如果拥有更多的先验信息,则可以对参数加入更多的限制条件(如假设各特征变量的扰动项分布相同,则可以加入所有\(\sigma_{ik}\)均相等的限制条件)。
求出参数极大似然估计量:
\(j\)表示第\(j\)个训练样本,如果\(Y = y_k\),\(\delta(Y=y_k)=1\),否则为0,极大似然估计是有偏估计量,其最小方差无偏估计量(the minimum variance unbiased estimator,MVUE)为: