1.从若干实例探讨算法的思考模式

1、逆否命题:

  

2、朴素贝叶斯:

 朴素贝叶斯是基于贝叶斯定理特征条件独立假设的分类方法

 最为广泛的两种分类器模型:决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。

 和决策树相比,朴素贝叶斯分类器(Naive Bayes Classifier,NBC)发源于古典数学理论,有着坚定的数学基础,以及稳定的分类效率。同时,NBS模型所需估计的参数少,对缺失数据不太敏感,算法也比较简单。理论上,NBS模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际中往往是不成立的,这个NBC模型的正确分类带来了一定影响。

 

 2.1、贝叶斯定理:

  • P(喜欢一个人|回微信):回复微信的情况下喜欢一个人的概率
  • P(回微信|喜欢一个人):喜欢一个人时会回复微信的概率
  • P(喜欢一个人):女/男神喜欢一个人的概率
  • P(回微信):女/男神正常情况下回复微信的概率

 正向概率:如“假设袋子里面有N个白球,M个黑球,你伸手去摸一把,摸出黑球的概率是多大”。

 逆向概率:“如果事先并不知道里面黑球和白球的比例,而是闭着眼睛去摸出一个球(或者好几个球),观察这些取出来的球的颜色,我们可以对袋子里面黑白球的比例作出什么样的推测”。

  几个相关概念

  • 先验概率:在考虑观测数据前,能表达不确定量 p 的概率分布
  • 后验概率:在考虑和给出相关证据或数据后所得到的条件概率
  • 条件概率:事件 A 在另外一个事件 B 已经发生条件下的发生概率,表示为 P(A|B)
  • 可能性函数/似然函数:一种关于统计模型中参数的函数,用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计

  

  百度百科:

 

 

 

关键词:

  • 过拟合:过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。
    •  定义: 给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。

  2.2、决策树:

  

 

posted @ 2019-09-08 09:26  小吴的日常  阅读(129)  评论(0)    收藏  举报