无偏估计器与最优估计器:Bayesian与orthodoxian之间的争论
我们做工程的似乎不该花太多时间在什么最优或是无偏估计这样的争执上,但是这个争论是如何看待建模很重要的一个角度。这两个门派斗得不可开交的时候,不知道上帝是怎么看的。这里说的这些问题和举的例子部分是从E.T. Jaynes的"Probability theory: the logic of science"中总结出来,对工程而言,没有很直接的用途,但是orthodoxian和baysian之间的争执及baysian是如何随着历史的发展占了上风这样的过程本身既真实又挺有趣,对建模中的路线选择和问题解释,也有一定的借鉴意义。关于这两个流派的历史演进,看过对E.T. Jaynes的一个访谈报告,讲到50/60/70年代orthodoxian基本占上风,由于简单易操作被广泛地应用,到了近几十年,baysian的各种推理算法和近似算法及计算机性能的提高使得这个派系逐渐热了起来。言归正传,这里讲的主要是baysian是如何看待orthodoxian参数估计时的一些做法的和无偏估计器(unbiased estimator)的。
Bias,Variance和无偏估计器
概率模型中的参数估计可以看成从样本全体中独立同分布地随机采样N次得到训练样本集做出的训练,如果我们要判断一个估计器的效果,可以看估计出参数与真实参数的某个损失函数值的期望,不妨用误差平方的期望:
这个估计可以写成
左边一项叫bias,右边一项叫variance
人们倾向于构造一个unbiased估计器(即bias为0的估计器)。但是我们抛开命名,最终目的还是希望整个误差越小越好,而不是bias越小越好。对unbiased估计器的偏好来源于两个假设:1)能进行多次实验以消除variance 2)每次实验所用数据都是从数据全体中独立同分布采样得到。这两个假设常常是不成立了。我们能看到的数据是有偏的,另一方面,我们也无法进行多次的实验。
讨论无偏估计有意义吗
于是我们会转到一个问题上:为一个模型设计一个无偏的估计器的意义何在?E.T. Jaynes不断强调:如果我们最后优化的是参数估计的某种误差的期望,那么我们希望最小化的是误差期望本身而不是bias。简言之,我们要优化的是 (E(\hat{\theta})-E(\theta))^2+(E(\hat{\theta}^2)-E(\hat{\theta})^2)而不是(E(\hat{\theta})-E(\theta))^2。这是Jaynes主要的一个argument。换言之,在我们能获取的所有信息(数据点)限定的情况下,我们应该选择做前者而非后者。这是他认为大家focus太多于unbiased estimator是一个错误的一个理由。Fisher认为focus在unbiased estimator是没有必要是因为:一个对\theta的无偏估计,不是一个一个对\theta^2的无偏估计。
关于无偏估计最常举的例子自然是估计样本的方差。
得到一些样本后,我们先试图这样来估计方差
对上面的式子取均值可得
发现这个估计不是无偏的,于是我们再把这个估计乘以 \frac{n}{n-1}就是一个无偏估计了(\theta_2)。 然而,对于我们能得到所有数据而言,这个无偏估计更好吗。我们回到1.1式,把无偏估计和有偏估计分别带入,分别得到两个参数估计误差。表示成二阶矩和四阶中心矩和n的形式可以看出,无偏估计在n较大时对于估计误差来说是大了而不是小了。文中还进一步讨论\theta_1)乘以一个什么样的系数能让误差最小呢,有兴趣的同学要看一下"The logic of science"的第17章。
最优估计器
问题来了,是否存在一个估计器,能使某个参数估计的误差(不妨用误差平方的期望)最小。真实参数为\alpha,其真实的分布为p(\alpha), 估计值为\beta(X)。其中X可以认为是一次采样中能看到的所有数据点(不是一个数据点)。这样误差可以写成:
如将L(\alpha,\beta)定义为E(\alpha-\beta)^2 对\beta求导可以得到关于beta的积分方程,解此积分方程,可以得到一个很妙的结果。
这正是后验的期望。baysian才是估计器的最优方案啊?
最大似然与最优估计器
最大似然原理对于bayesian而言是如此自然(基于参数\theta的后验概率与P(\theta)P(D|\theta))相关,而后者只有第二项与数据相关),而对于orthodoxian却有些纠结。
结合上一节,如果先验是constant,最优估计器实际上就是最大似然估计。对最大似然而言,数据量过少会造成过拟合,设定合理的prior有助于regularize拟合的过程.Jaynes提到的一个缺点"The maximum-likelihood criterion is the one in which we care only about the chance of being exactly right; and, if we are wrong, we don’t care how wrong we are." 我不太理解,maximum-likelihood实际上是logistic loss,的确考虑了概率偏差程度对loss的影响。
浙公网安备 33010602011771号