PRML读书笔记 第二章

int main()
{
}

这一章主要讲概率分布 分为二元 多元 高斯 以及先验分布 beta 狄利克雷分布
最后将这些分布统一到指数簇家族一类中

概率分布分为两个经典学派,频率学派和贝叶斯学派。 频率学派关注数据,认为数据是不会说谎的,一切以数据为中心,采用最大似然函数来求取data 的概率。而贝叶斯学派则认为数据是不完全准确的,有些是数据的测量误差,有些是无法避免的仪器误差,或者说测量时有其他因素的干扰,总之一句话,数据不完全可信。所以贝叶斯会默认给数据添加一份先验概率,这是一份经验知识。而证实贝叶斯有效的就是第一章里的多项式拟合里的损失函数。当我们的先验知识是有效的,贝叶斯会非常有效,一般会是这样的,但如果先验知识无效,或者说这种先验知识是有局限性条件时,贝叶斯反而会造成更大误差。比若说投硬币,默认大家认识的硬币就是0.5 0.5 的概率,但如果这种硬币有问题,投硬币的概率是0.4 0.6,但如果你还是加入0.5 0.5的先验进去,那就悲剧了。

反正这两种观点都有一定的道理吧。在我看来,在大数据的今天,数据量大的优势可以弥补下没有先验知识的缺点,因为我们可以通过更多的数据来学习出这部分先验知识,或许频率学派会在大数据的今天占据优势吧。

\[Bern(x|u) = {u^x}{(1 - u)^{1 - x}} \]

现在假设我们有一堆观察数据$D = { {x_1},...,{x_n}} $,我们可以描绘它的概率

\[p(D|u) = \prod\limits_{n = 1}^N {p({x_n}|u)} = \prod\limits_{n = 1}^N {{u^{{x_n}}}{{(1 - u)}^{1 - {x_n}}}} \]

上面公式的log似然函数可以如下

\[\operatorname{lnp} (D|u) = \sum\limits_{}^{} {lnp({x_n}|u)} \]

我们对其求导 ,max 似然函数,就可以通过数据得到

\[{u_{ML}} = \frac{1}{N}\sum\limits_{}^{} {{x_n}} \]

而伯努利分布则如下

\[N = a + b \]

\[Bin(a|N,u) = (\frac{N}{a}){u^a}{(1 - u)^b} \]

beta 分布

beta 分布为什么存在? 这里面PRML并没有直接描述,导致我最开始看书时很迷惑,后来根据共轭分布的意思,自己推了一下,一下就了解了它到底是干嘛的

假设现在有一堆数据D 我们根据上面似然函数来求u

\[p(D|u) = p(u|a,b) = (\frac{{a + b}}{a}){u^a}{(1 - u)^b} \]

而由贝叶斯

\[p(u|D) = p(D|u)*p(u)/p(D) \]

p(D)可以忽略,则变成了

\[p(u|D) = p(D|u)*p(u) \]

而为了达到先验 p(u) 和后验p(u|D) 一个形式,则 p(u)必须和p(D|u)一个形式,则p(u)必须为

\[p(u) = ?*{u^m}{(1 - u)^l} \]

而beta 分布则如下

\[Beta(u|a,b) = \frac{{\Gamma (a + b)}}{{\Gamma (a)\Gamma (b)}}{u^{a - 1}}{(1 - u)^{b - 1}} \]

这个形式和beta 的定义几乎一样,只是多了gama 函数而已,而这个是只是为了让概率归一化为1

所以现在该明白为什么beta 函数式一个共轭先验了吧。
当然 beta 还有一些性质,我这里就不写了

有了共轭先验这种高级思想之后,我们得到的后验概率也相当漂亮

\[{\text{p(u|m,l,a,b) = }}\frac{{\Gamma (m + a + l + b)}}{{\Gamma (m + a)\Gamma (l + b)}}{u^{m + a - 1}}{(1 - u)^{l + b - 1}} \]

如下图显示了先验对后验概率的影响
![enter image description here][1]

共轭先验能拿来干嘛呢? 这个就强大了。你想想,先验和后验一个形式,那么我前一次用的数据算出来的参数可以当做后一次数据的共轭先验,那我就可以一直这样迭代下去来求参数,这样就可以做一个实时learning ,也就是online learning。是不是吊炸天了
[1]: //images0.cnblogs.com/blog/417444/201403/041113557531311.jpg

posted @ 2014-03-04 11:15  haidao2008  阅读(638)  评论(0)    收藏  举报