这个联合概率难以从有限的训练样本中直接估计得到。于是,朴素贝叶斯(Naive Bayesian,简称NB)采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。于是有:
$$P(x_1,x_2,\cdots,x_d|c_i)=\prod_{j=1}^d P(x_j|c_i)$$
这样的话,我们就可以很容易地推出相应的判定准则了:
$$h_{nb}(\boldsymbol{x})=\mathop{\arg \max}_{c_i\in Y} P(c_i)\prod_{j=1}^dP(x_j|c_i)$$
**条件概率$P(x_j|c_i)​$的求解**

如果$x_j$是标签属性,那么我们可以通过计数的方法估计$P(x_j|c_i)$

$$P(x_j|c_i)=\frac{P(x_j,c_i)}{P(c_i)}\approx\frac{\#(x_j,c_i)}{\#(c_i)}$$ 其中,$\#(x_j,c_i)$表示在训练样本中$x_j$与$c_{i}$共同出现的次数。 如果$x_j​$是数值属性,通常我们假设类别中$c_{i}​$的所有样本第$j​$个属性的值服从正态分布。我们首先估计这个分布的均值$μ​$和方差$σ​$,然后计算$x_j​$在这个分布中的概率密度$P(x_j|c_i)​$。

 

 $\frac{1}{2}$

#include<bits/stdc++.h>
using namespace std;
int main()
{
        cout<<"测试"<<endl;
    return 0;
}
View Code

 

 posted on 2018-12-30 22:03  GreenDuck  阅读(149)  评论(1编辑  收藏  举报