朴素贝叶斯

朴素贝叶斯(Naive Bayes)是贝叶斯分类器(Bayesian classifier)的扩展，是贝叶斯决策论(Bayesian decision theory)的一部分。贝叶斯决策论的核心思想是选择有最高概率的决策(分类)。举个例子，有一天你走在路上听到一群狼嚎，你知道那肯定不是真的老虎，而是电视喇叭发出的声音；要是你跟朋友去某个原始森林里野营，哪怕听到一声狼叫估计也会胆战心惊，因为几乎可以断定附近有狼。

朴素贝叶斯可以用于任意分类场景中，被广泛用于文档分类，如垃圾邮件过滤，新闻分类等。朴素贝叶斯方法被称作“朴素”是因为它的假设：

a. 各个特征之间相互独立

b. 各个特征的重要性相同

第一个假设认为每个特征都是不相关的，即一个特征的值不会影响另一个特征的取值。而在实际中，这显然是很难满足的假设。对于邮件归类问题，假如我们使用单词作为特征，那么该假设认为每个单词的出现是无关的。然而现实中，某些单词却像亲兄弟一样经常成对出现。比如如果一个邮件中出现了“肥胖”这个词，那么我们可以猜到“吃”、“垃圾食品”、“健康”、“减肥”等词汇极有可能出现，因为它们与“肥胖”有着极强的关联。

同样对于邮件分类问题，第二个假设则认为每个单词对于邮件的归类的重要性相同。然而大多数情况下，我们只要扫一眼邮件，如果看到“特惠”或者“清仓”几乎可以确定是商家推销的邮件，无需再深入去看邮件内容。对于新闻内容的分类，如果出现“本拉登”或者“911”，你也一定立马会知道这篇新闻是关于恐怖主义的。因此实际中选取的特征重要性很难相同。

由于朴素贝叶斯做出的两个假设在实际应用中看起来很“naive”，因此这种方法被称为"Naive Bayes"。

虽然朴素贝叶斯方法的假设有点“too young too simple”，但也正是因为它这天真的假设大大简化了计算过程，并在实际应用中取得很好的效果。

conditional independence

laplace校准

prepare: bag-of-words document model

例子1 垃圾邮件过滤

例子2

posted @ 2015-05-27 13:53 universe 阅读(365) 评论(0) 收藏举报

刷新页面返回顶部

universe

朴素贝叶斯

公告