一.贝叶斯
朴素贝叶斯的思想基础:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。
概念:
先验概率
后验概率
最大似然:最符合观测数据的(即P(D | h) 最大的)最有优势
奥卡姆剃刀:P(h) 较大的模型有较大的优势
优缺点:
优点:
1. 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率;
2. 对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类也仅仅是特征概率的数学运算而已;
3. 对小规模的数据表现很好,能个处理多分类任务,适合增量式训练(即可以实时的对新增的样本进行训练);
4. 对缺失数据不太敏感,算法也比较简单,常用于文本分类;
5. 朴素贝叶斯对结果解释容易理解。
缺点:
1. 需要计算先验概率;
2. 分类决策存在错误率;
3. 对输入数据的表达形式很敏感;
4. 由于使用了样本属性独立性的假设,所以如果样本属性有关联时其效果不好。
应用领域
1. 欺诈检测中使用较多;
2. 一封电子邮件是否是垃圾邮件;
3. 一篇文章应该分到科技、政治,还是体育类;
4. 一段文字表达的是积极的情绪还是消极的情绪;
5. 人脸识别。
注:朴素贝叶斯(假设特征之间独立,互不影响)
实例:
两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?
我们假定,H1表示一号碗,H2表示二号碗。由于这两个碗是一样的,所以P(H1)=P(H2),也就是说,再取出水果糖之前,这两个碗被选中的概率相同。因此,P(H1)=0.5,我们把这个概率叫做”先验概率“,即没有做实验之前,来自一号碗的概率是0.5。
再假定,E表示水果糖,所以问题就变成了在已知E的情况下,来自一号碗的概率有多少?即求P(H1|E)。我们把这个概率叫做”后验概率“,即在事件E发生之后,对P(H1)的修正。
根据条件概率公式,得到:
已知,P(H1)等于0.5,P(E|H1)为一号碗中取出水果糖的概率,等于0.75,那么求出P(E)就可以得到答案。根据全概率公式:
所以,将数字代入原方程,得到
这表明,来自一号碗的概率是0.6。也就是说,取出水果糖之后,H1事件的可能性得到了增强。
二.贝叶斯拼写检查器