先验概率、后验概率、似然函数概念的区分

博文二的链接:原文链接:https://blog.csdn.net/u011092188/article/details/60468246    本文中的很多➗没有打印出来,还是看原文吧

 博文一:

先验A priori;又译:先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。它通常与后验知识相比较,后验意指“在经验之后”,需要经验。这一区分来自于中世纪逻辑所区分的两种论证,从原因到结果的论证称为“先验的”,而从结果到原因的论证称为“后验的”。

    先验概率是指根据以往经验和分析得到的概率,如全概率公式 中的 ,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的“因” 。后验概率是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计。先验概率和后验概率是相对的。如果以后还有新的信息引入,更新了现在所谓的后验概率,得到了新的概率值,那么这个新的概率值被称为后验概率。
先验概率的分类:
利用过去历史资料计算得到的先验概率,称为客观先验概率;

当历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率,称为主观先验概率。

后验概率是指通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正,而后得到的概率。

先验概率和后验概率的区别:

先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的;后验概率使用了有关自然状态更加全面的资料,既有先验概率资料,也有补充资料;

  先验概率的计算比较简单,没有使用贝叶斯公式;而后验概率的计算,要使用贝叶斯公式,而且在利用样本资料计算逻辑概率时,还要使用理论概率分布,需要更多的数理统计知识。

 

先验概率与后验概率的区别(老迷惑了)下面转自其他博客

先验概率与后验概率

"概率就是无知, 而不是事务本身是随机的".

    事情有N种发生的可能,我们不能控制结果的发生,或者影响结果的机理是我们不知道或是太复杂超过我们的运算能力. 新发一个物种, 到底是猫,还是小老虎呢(朱道元的经典例子)? 是由于我们的无知才不能确定判断.

 

先验概率 ( Prior probability)

先验概率是在缺乏某个事实的情况下描述一个变量; 而后验概率是在考虑了一个事实之后的条件概率.  先验概率通常是经验丰富的专家的纯主观的估计. 比如在法国大选中女候选罗雅尔的支持率 p,  在进行民意调查之前, 可以先验概率来表达这个不确定性.

 

后验概率 ( posterior probability)

 Def: Probability of outcomes of an experiment after it has been performed and a certain event has occured.  

后验概率可以根据通过Bayes定理, 用先验概率和似然函数计算出来.  下面的公式就是用先验概率密度乘上似然函数,接着进行归一化, 得到不定量X在Y=y的条件下的密度,即后验概率密度:

f_{X\mid Y=y}(x)={f_X(x) L_{X\mid Y=y}(x) \over {\int_{-\infty}^\infty f_X(x) L_{X\mid Y=y}(x)\,dx}}

 

其中fX(x) 为X的先验密度,

LX | Y = y(x) = fY | X = x(y) 为似然函数..

 

先验概率与后验概率的区别(老迷惑了)

看了很多张五常的文章以后,思考一些经济学或者统计学的问题,都试着从最简单处入手。
一次,在听一位英国帝国理工大学的教授来我们学校讲学,讲的主要是经济计量学的建模,以及一些具体应用实例,没想到听报告过程中,一直在思考一道最简单的概率问题。关于“抛硬币”试验的概率问题。
问题是这样的:
1、多次抛硬币首先是一个贝努利试验,独立同分布的
2、每次抛硬币出现正、反面的概率都是1/2
3、当然硬币是均匀同分布的,而且每次试验都是公正的
4、在上述假设下,假如我连续抛了很多次,例如100次,出现的都是正面,当然,稍懂概率的人都知道,这是一个小概率事件,但是小概率事件是可能发生的。我要问你,下次也就是我抛第101次,出现正、反的概率是不是相等。我认为是不相等的,出现反面的概率要大于正面。我的理由是,诸如“抛硬币”等独立同分布试验都有无数人试验过,而且次数足够多时,正、反面出现的概率应该是逼近1/2的。也就是说,这个过程,即使是独立同分布的试验它也是有概率的。
5、提出这个问题之后,我请教了很多同学和老师,大部分同学一开始都是乍一听这个问题,马上对我的观点提出批判,给我列条件概率的公式,举出种种理由,不过都被我推翻了
很巧的是,没几天,我在图书馆过期期刊阅览室找到一篇关于独立同分布的newman定理
推广到markov链过程的文章,见97年《应用统计研究》,我看不大懂,复印了下来,去请教
我们系数理统计方面比较权威的老师,他的答复我基本满意。他将数理统计可以分为两大类:频率统计学派和贝叶斯统计学派。目前,国内的数理统计主要是频率统计。又给我分析了什么是 先验概率,先验概率和条件概率有什么区别,他认为:在“抛硬币”试验当中,硬币的均匀分布和抛的公正是先验条件或先验概率,但是抛100次正面却是条件概率,接着他又解释了概率的记忆功能,他讲当贝努利试验次数不够大的时候,它不具有记忆功能,次数足够大的时候,也就是服从二项分布时,具有记忆功能。这时,连续抛很多次正面就可以算作是先验概率。
但这样,我又不懂了。我认为,即使只刚抛过1次,如果考虑这个过程的话,对第二次的结果也应该是有影响的,你们认为呢?这个问题,这位老师也没能解释好。
研究这个问题的启示或者意义:
1、推翻了一些东西,可能很大,也可能是我牛角尖钻的太深了
2、一个试验,我在一间屋子里做“抛硬币”的试验,我“一不小心”连续抛出了100次正面,这里请你不要怀疑硬币质地的均匀和我抛法的不公正,这时,你推门进了实验室,我和你打赌,下次抛硬币会出现反面,给你很高的赌注。因为我知道我已经抛了100次正面,在这个过程中正反面出现的概率是要往1:1均衡的。但是我不会告诉你,我已经连续抛了100次正面。你当然认为正反面出现的概率是1:1,而且你的理论依据也是正确的。但是,你的正确的理论可能会使你输钱的。
3、研究这个问题,我是想提出两个问题:其一,正确的理论可能得不出正确的结果,其二,信息的不对称问题。

 

 

先验概率与后验概率的区别(老迷惑了)验前概率就是通常说的概率,验后概率是一种条件概率,但条件概率不一定是验后概率。贝叶斯公式是由验前概率求验后概率的公式。
举一个简单的例子:一口袋里有3只红球、2只白球,采用不放回方式摸取,求:
⑴ 第一次摸到红球(记作A)的概率;
⑵ 第二次摸到红球(记作B)的概率;
⑶ 已知第二次摸到了红球,求第一次摸到的是红球的概率。
解:⑴ P(A)=3/5,这就是验前概率;
⑵ P(B)=P(A)P(B|A)+P(A逆)P(B|A逆)=3/5
⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2,这就是验后概率。

 

博文二,看上面的链接

 

一、基本概念

1、先验概率和后验概率

 

 
P(θ|X)=P(X|θ)P(θ)/P(X)

 

其中,θ表示模型中的未知参数,X表示样本。这里有三个重要的概念:先验分布、似然函数,以及后验分布。

  • P(θ)是先验分布,表示在观察样本之前,按照经验认为θ符合某种概率分布。比如说在抛硬币之前,我们认为正反两面出现的概率各为1/2。

  • P(X|θ)是似然函数,表示在给定模型参数θ的条件下,样本数据X服从这一概率模型的相似程度。

  • P(θ|X)是后验分布,表示在观察一系列样本数据X后,模型参数θ服从的概率分布。即,对先验分布进行了修正,更接近真实情况。

  • 另外,因为X是样本,所以P(X)是一个确定的值。

显然它们之间的关系可以通过贝叶斯公式进行连接: 

 
=()/P(X)

 

2、共轭(先验)分布

如果先验分布和似然函数可以使得先验分布和后验分布是相同的类型(比如都是指数分布,或都是高斯分布),那么就称先验分布与似然函数是共轭(先验)分布。

之所以采用共轭先验分布的原因是可以使得先验分布和后验分布具有相同形式,这样一方面合符人的直观(它们应该是相同形式的)另外一方面是可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。

二、机器学习中的应用

1、贝叶斯法则

  机器学习的任务:根据给定的训练数据集D,在假说集H中的选出一个最佳假说(hypothesis)作为最终的模型。

  最佳假说:是在给定数据集D和假说集H中每个假说h的先验概率的情况下,最可能(概率P(h|D)最大)的一个假说。贝叶斯理论提供了一种计算假说P(h|D)的方法:已知各个假说h的先验概率P(h),以及在假说下h观察到数据集D的概率P(D|h)(似然函数),和数据集本身发生的概率P(D),则各个假说h的后验概率为: 

 
P(h|D)=P(D|h)P(h)/P(D)

 

2、先验概率和后验概率

  用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一个正确假说机会(概率)的背景知识,如果没有这一先验知识,可以简单地将每一候选假说赋予相同的先验概率。类似地,P(D)表示训练数据集D的先验概率,P(D|h)表示某个假说h成立时D发生的概率,称为似然函数。机器学习中,我们关心的是P(h|D),即给定Dh的成立的概率,称为h的后验概率。

3、贝叶斯公式

  贝叶斯公式提供了从先验概率P(h)、似然函数P(D|h)P(D)以及计算后验概率P(h|D)的方法:

 

 
P(h|D)=P(D|h)P(h)/P(D)

 

P(h|D)随着P(h)P(D|h)的增长而增长,随着P(D)的增长而减少,即如果D独立于h时被观察到的可能性越大,那么Dh的支持度越小。

4、极大后验估计(Maximize a Posterior,MAP)

  学习器是在候选假说集H中寻找给定数据集D时可能性最大的假说h,也即是P(h|D)最大的假说。获取最大假说的方法是通过极大后验估计(MAP)来获取的。极大后验估计是用贝叶斯公式计算每个候选假说h的后验概率,并从中挑出使P(h|D)最大的假说h,计算式如下:

 

 
hMAP=argmax(P(h|D))=argmax(P(D|h)P(h)/P(D))=argmax(P(D|h)P(h))(hH)

 

最后一步,去掉了P(D),因为它是不依赖于h的常量。

5、极大似然估计(Maximize Likelihood Estimation, MLE)

  在某些情况下,可假定H中每个假说有相同的先验概率,这样式子可以进一步简化,只最大化似然函数P(D|h)即可,此时就变成了极大似然估计(MLE): 

 
hMLE=argmax(P(D|h))(hH)

 

P(D|h)常被称为给定h时数据D的似然度,而使P(D|h)最大的假设被称为极大似然假设。

  极大似然估计在有些教科书上表示为Px1x2x3...xn;θ,其中θ为随机变量X所满足的分布中待估计的参数,xi为满足随机变量X分布的一个样本,且样本之间是独立同分布的(iid)。

实际上Px1x2x3...xn;θ就是一个条件概率Px1x2x3...xn|θ,即在参数取值为θ的条件下,样本组x1x2x3...xn发生的概率。极大似然估计的思想就是既然这组样本已经发生,那么存在即为合理,那么使得Px1x2x3...xnθ最大值时的θ的取值应为最合理的结果。

6、举例

  考虑一个医疗诊断问题,有两种可能的假设:(1)病人有癌症。(2)病人无癌症。样本数据来自某化验测试,它也有两种可能的结果:阳性和阴性。假设我们已经有先验知识:在所有人口中只有0.008的人患病。此外,化验测试对有病的患者有98%的可能返回阳性结果,对无病患者有97%的可能返回阴性结果。

  上面的数据可以用以下概率式子表示:

      P(cancer)=0.008P(cancer)=0.992 
      P(|cancer)=0.98P(|cancer)=0.02 
      P(|cancer)=0.03P(|cancer)=0.97

  假设现在有一个新病人,化验测试返回阳性,是否将病人断定为有癌症呢?我们可以来计算极大后验假设:

      P(|cancer)p(cancer)=0.980.008=0.0078

      P(|cancer)P(cancer)=0.030.992=0.0298 
因此,应该判断为无癌症。

  确切的后验概率可将上面的结果归一化以使它们的和为1: 
      P(canner|)=0.0078/(0.0078+0.0298)=0.21

      P(cancer|)=0.79

  其实上: 

 
P(cancer|yangxing)=P(阳性|cancer)P(cancer)P(阳性)=P(阳性|cancer)P(cancer)P(阳性|cancer)P(cancer)+P(阳性|cancer)P(cancer)=0.00780.98*0.008+0.03*0.992=0.00780.0376=0.21


也即是通过直接归一化获得P(canner|)与除以分母P()获得的P(canner|)的结果相同相同,所以以后直接使用归一化方法即可。

 

贝叶斯推理的结果很大程度上依赖于先验概率,另外不是完全接受或拒绝假说某个假说$$,只是在观察到较多的数据后增大或减小了某个假说$h$的可能性。

先验概率是关于某个事件的先验知识,计算后验概率并不是说先验概率有错误,只是在观察到较多的数据后对先验概率进行的调整。比如说通过统计100年的降水情况获得一天下雨的先验概率,但是由于气候在不断发生变化,因此使用最近今年的降水情况对先验概率进行调整,来获取对某天下雨更精确的预测,即为后验概率。

7、贝叶斯分类具有如下特点:

  • 贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类;

  • 一般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类;

  • 贝叶斯分类对象的属性可以是离散的、连续的,也可以是混合的。

  贝叶斯定理给出了最小化误差的最优解决方法,可用于分类和预测。理论上,它看起来很完美,但在实际中,它并不能直接利用,它需要知道样本的确切分布概率,而实际上我们并不能确切的给出样本的分布概率。因此我们在很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求。


posted @ 2018-04-08 10:35  我是小随  阅读(1856)  评论(0编辑  收藏  举报