PRML2-概率分布

本博文来自《PRML第二章》

在第一章中说了对于模式识别问题来说,核心角色就是概率论。本章的目的一方面是为了介绍概率分布,另一方面也是为了对后面遇到的那些复杂问题先打下基础。本章关于分布上的一个讨论核心就是如何在给定有限的观测集合基础上对随机变量的概率分布进行建模,这也被称之为密度估计问题。本章中假设数据都是i.i.d 的。这里我们的强调下密度估计问题其实是个病态问题,因为对于某个观测到的有限数据集来说,其实是会有无限个概率分布可以可以如此表示。

       什么分布最合适是需要基于模型选择问题上的考虑,比如第一章中说的多项式拟合问题,其实就是模式识别的一个中心问题。本章先介绍基于离散随机变量的二元和多元分布和基于连续随机变量的高斯分布。这些都是参数化分布的具体形式,这么称呼是因为他们都是受到一些可调整参数的控制的,例如高斯中的均值和方差。所以在给定观测的数据集基础上,使用这些密度估计就需要选择合适的参数值,在频率学派的眼里,这些值可以通过一些优化标准来得到,比如似然函数;而对于贝叶斯学派来说,是先引入参数上的先验分布,然后使用贝叶斯理论来计算在给定观测数据基础上的后验分布。

      在这其中有个重要的东西叫做共轭先验,它可以让后验分布有着与先验一样的函数形式,所以这对于贝叶斯的分析带来了很大的便利。例如多元分布中产生的共轭先验叫做dirichlet分布;一个高斯的均值的共轭先验却又是另一个高斯。所有的这些分布其实都可以看成是分布的指数族(exponential family)的具体情况。

      参数化方法的一个限制就是它对于一个分布需要假设一个具体的函数形式,这使得对于特殊的应用来说总是有点不合适。相对的叫做非参数化密度估计方法,这里面对于分布的形式通常都是依赖于数据集的大小而定的。虽然这些模型还是包含着参数,不过它们是控制模型的复杂度的而不是分布的形式。本章最后会介绍三个非参数化方法:直方图、最近邻、核。

2.1 二值变量

        先介绍单一的二值随机变量。假设这是一个残缺的硬币,的概率可以通过参数表示,所以:


其中。所以。基于的概率分布可以写成:


这就是大家熟悉的伯努力分布,可以很容易的证明该分布是已经归一化的,并且他的均值和方差为:


对于数据集来说,似然函数是关于参数的函数,假设所有观测得到的值都是独立的从同一个分布中采样得到的,那么似然函数为:

                                    (2.1.4)

对于频率学派的人来说,可以通过最大化似然函数或者最大化似然函数的log对数来求得。在伯努力分布中,似然函数的形式为:


将上面式子进行关于的求导,然后等于0,求得其最大似然估计:


这也被称之为采样均值。如果我们将上面硬币头朝上的频率表示成,那么就可以将上面那个最大似然估计写成:


不过假设我们抛这个硬币只抛了三次,而且三次都是头朝上的,那么上述期望值就该为1了,即。在这种情况下,通过最大似然函数得到的结果就是个百分百事件了,对于这种极端的情况下的例子,我们称之为最大似然函数过拟合。在下面会介绍如何通过引入一个基于的先验分布来解决该问题。

       对于单次伯努力实验来说就是得0 和1 的概率,如果多次试验(其中都是独立的),这样 就叫做二项式分布,从式子(2.4.1)中可以知道二项式分布是与成比例的:

                                                                  (2.1.8)

这里:


而相对的二项式分布的期望和方差为:


ps:下面是二项式分布的期望证明过程:

需要依赖的,组合恒等式:,假设我们有N次实验,其中在这N次中成功的次数及其概率如下图:


下面是推导过程:


或者另一种推导方式:即因为每次试验都是相互独立的,所以对于期望来说,是每个期望独立相加即可,而对于某次的伯努力试验来说其期望就是为,所以n次试验就是n(此处即为上面第一种推导的 p)。

2.1.1 beta分布

       正如上面说的,对于小样本量来说,最大似然方法求的参数有可能会过拟合。为了通过贝叶斯角度来解决该问题,我们需要引入一个先验分布。这里我们考虑先验分布的形式需要简单的解释,并且有许多有用的特性。我们注意到之前的似然函数是形式的因子的乘积,如果我们选择的先验是与和(1 - )的幂成比例的,那么得到的后验概率(与先验和似然函数的积成比例),就可以得到与先验一样的函数形式了。这种特性就叫做共轭性(conjugacy)。这里我们选择的先验叫做beta分布:

                                         (2.1.1.1)

这里是一个gamma函数:

上面(2.1.1.1)的系数可以确保该beta分布是归一化的,所以:


beta分布的均值和方差为:


上面的参数被称为超参数,因为它们控制着参数。下图展示了不同的超参数下beta分布的形式:


图中的(2.13)为上面的式子(2.1.1.1)

现在,参数的后验分布可以通过将beta先验(2.1.1.1)乘以二项似然函数(2.1.8)然后归一化得到,其中后验分布有如下形式:

                                                     (2.1.1.6)

这里,对应着抛硬币头朝下的次数。从上面式子可以看出它有着与先验一样的函数形式,反映了先验关于似然函数的共轭性。这简直就是另一个beta分布,它的归一化系数可以通过与(2.1.1.1)的对比得到:


假设当前这次试验该数据集中观察到发生的次数为次,而对应的0的次数发生了次。从之前的先验分布到这里的后验分布,的值分别增加了。我们可以简单的理解成先验中的超参数和0的有效观测数。注意这里的不需要是整数。更进一步来说,这里的后验分布可以当成是在观察后续额外数据的先验。即假设一次观察一个样本,然后更新当前的后验分布。只要将新的样本的似然函数乘以当前的后验分布,然后归一化得到新的后验分布即可。在每个阶段来说,该后验分布都是一个在给定参数的基础上观测到和0的总数的beta分布而已。



(图中2.9为式子2.1.8)

从贝叶斯角度来说,顺序学习的方法是很自然的。这种方法与先验和似然函数的选择无关,只取决于数据i.i.d 的假设 ,顺序学习可以一次使用一个观测样本或者一个小批量,然后在使用下一个观测样本之前抛弃它们。


(个人:这里是基于给定一个数据集求下一个目标为1的概率,就等于基于之前的数据集先计算出参数的概率,然后通过该参数计算当前的目标的概率,这里用到了乘法规则,而且因为是连续的,所以采用连续变量的求概率方法,即积分形式)


参考文献:



2015年09月11日 第0次修改!


posted @ 2015-09-11 09:03  仙守  阅读(298)  评论(0编辑  收藏  举报