【9】点估计的优良性准则

【9】点估计的优良性准则

估计量的无偏性

设某统计总体的分布包含未知参数\(\theta_1,...,\theta_k\)\(X_1,...,X_n\)是从该总体中抽出的样本,要估计\(g(\theta_1,...,\theta_k)\)。g为一已知函数,设\(\hat{g}(X_1,...,X_n)\)是一个估计量,若对任何可能的\((\theta_1,...,\theta_k)\)都有:

\[E_{\theta_1,...,\theta_k}[\hat{g}(X_1,...,X_n)]=g(\theta_1,...,\theta_k) \]

则称\(\hat{g}\)\(g(\theta_1,...,\theta_k)\)的一个无偏估计量。

  • 估计量的无偏性具有两种含义:
    • 没有系统性的偏差,但随机误差总是存在,但把这些正负偏差在概率上平均起来,其值为零;
    • 若估计量具有无偏性,则在大量次数使用取平均时,能以接近100%的把握无限逼近被估计的量。

样本方差:\(S^2=\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{n-1}\)是总体方差\(\sigma^2\)的无偏估计:

\[\begin{align} \sum_{i=1}^n(X_i-\overline{X})^2=&\sum_{i=1}^n[(X_i-a)-(\overline{X}-a)]^2\\ =&\sum_{i=1}^n(X_i-a)^2-2(\overline{X}-a)\sum_{i=1}^n(X_i-a)+n(\overline{X}-a)^2\\ \because&\left(\sum_{i=1}^n(X_i-a)=n(\overline{X}-a) \right)\\ =&\sum_{i=1}^n(X_i-a)^2-n(\overline{X}-a)^2\\ =&\sum_{i=1}^n(X_i-E(X_i))^2-n(\overline{X}-E(\overline{X}))^2\\ =&Var(X_i)-Var(\overline{X})\\ =&\sigma^2-Var(\frac{\sum_{i=1}^nX_i}{n})\\ =&\sigma^2-\sum_{i=1}^n\frac{Var(X_i)}{n^2}\\ =&\sigma^2-\frac{\sigma^2}{n} \end{align} \]


\[\begin{align} E(S^2)=&\frac{1}{n-1}E\left(\sum_{i=1}^n(X_i-\overline{X})^2\right)\\ =&\frac{1}{n-1}\left(n\sigma^2-\sigma^2\right)\\ =&\sigma^2 \end{align} \]

即证明了,\(S^2\)\(\sigma^2\)的无偏估计。

这里分母为\((n-1)\)是因为\(\overline{X}\)未知,而估计均值时用去了一个“自由度”。因此,自由度为“\(n-1\)”.


无偏估计不具有不变性,除非\(g(\theta)\)\(\theta\)的线性函数。

(Jackknife法-Quenouille,1949)

\(T(x)\)是基于样本\(x=(x_1,\dots,x_n)\)的关于\(g(\theta)\)的估计量,且满足\(E_\theta T(x)=g(\theta)+O(\frac1n)\),如以\(x_{(-i)}\)表示从样本中删去\(x_i\)后的向量,则\(T(x)\)的刀切统计量定义为:

\[T_J(x)=nT(x)-\frac{n-1}{n}\sum_{i=1}^NT(x_{(-i)}) \]

可以证明刀切统计量具有以下性质:

\[E_{\theta}T_J(x)=g(\theta)+O(\frac1{n^2}) \]

最小方差无偏估计

一个参数往往不止有一个无偏估计,想要从众多无偏估计中寻找最优的涉及到两个问题:

  • 优良性准则
  • 已定准则的情况下,如何去寻找最优者

均方误差

\[M_{\hat{\theta}}(\theta)=E_{\theta}[\hat{\theta}(X_1,...,X_n)-\theta]^2 \]

上式称为估计量的均方误差,也可写作:

\[M_{\hat{\theta}}(\theta)=E[\hat{\theta}(X_1,...,X_n)-\theta]^2=Var_{\theta}(\hat{\theta})+[E_{\theta}(\hat{\theta})-\theta]^2 \]

\(\hat{\theta}\)\(\theta\)的无偏估计,则第二项为0.

最小方差无偏估计

若局限于无偏估计的范围,且采用均方误差的准则,则两个无偏估计的比较归结于寻找方差小者为优。则可以设若\(\hat{\theta}\)\(g( \theta)\)的无偏估计,且他的方差对\(g(\theta )\)的任何一个无偏估计\(\hat{\theta_1}\)都有:

\[Var_{\theta}(\hat{\theta})\leq Var_{\theta}(\hat{\theta}_1) \]

\(\theta\)的任何可能取值都成立,则称\(\hat{\theta}\)\(g(\theta)\)的一个最小方差无偏估计(Minimum Variance Unbiased, MVU)。

求解MVU估计的方法:克拉美-劳 不等式

首先研究\(g(\theta)\)的一切无偏估计中,方差最小能达到多少,如果求出了一个方差的下界,则如果某个估计\(\hat{\theta}\)的方差达到了这个下界,那他必定就是MVU估计。设总体的概率密度函数\(f(x,\theta)\)只包含了一个参数,\(X_1,X_2,...,X_n\)为从该总体中抽出的样本,要估计\(g(\theta)\),记:

\[I(\theta)=\int\left((\frac{\partial f(x,\theta)}{\partial\theta})^2/f(x,\theta)\right)dx \]

Cramer-Rao Inequality.

在一定条件下,对\(g(\theta)\)的任意无偏估计\(\hat{g}=\hat{g}(X_1,...,X_n)\),有:

\[Var_{\theta}(\hat{g})\geq\frac{[g'(\theta)]^2}{nI(\theta)} \]


记:

\[S=S(X_1,...,X_n,\theta)=\sum_{i=1}^n\frac{\partial\ln{f(X_i,\theta)}}{\partial\theta}=\sum_{i=1}^n\frac{\partial f(X_i,\theta)}{\partial\theta}/f(X_i,\theta) \]

因为\(f(x,\theta)\)为密度函数,则\(\int f(x,\theta)dx=1\),对两边同时求导,则:

\[E_{\theta}\left[\frac{\partial f(X_i,\theta)}{\partial\theta}/f(X_i,\theta)\right]=\int\left[\frac{\partial f(x,\theta)}{\partial\theta}/f(x,\theta)\right]f(x,\theta)dx=0 \]

于是,由\(X_1,...,X_n\)的独立性,有:

\[\begin{align} Var_{\theta}(S)=&\sum_{i=1}^nVar_{\theta}\left(\frac{\partial f(X_i,\theta)}{\part\theta}/f(X_i,\theta)\right)\\ =&\sum_{i=1}^nE_{\theta}\left[\frac{\partial f(X_i,\theta)}{\partial\theta}/f(X_i,\theta)\right]^2\\ =&n\int\left[\frac{\partial f(x,\theta)}{\partial\theta}/f(x,\theta)\right]^2f(x,\theta)dx\\ =&nI(\theta) \end{align} \]

又由 Cauchy-Schwarz Inequality :

\[[Cov_{\theta}(\hat{g},S)]^2\leq Var_{\theta}(\hat{g})Var_{\theta}(S)=nI(\theta)Var_{\theta}(\hat{g}) \]

因为:\(E_{\theta}(S)=0\):

\[Cov_{\theta}(\hat{g},S)=E_{\theta}(\hat{g}S)\\=\int...\int\hat{g}(x_1,...,x_n)\sum_{i=1}^n\left[\frac{\partial f(x,\theta)}{\partial\theta}/f(x,\theta)\right]\prod_{i=1}^nf(x_i,\theta)dx_1...dx_n\\ =\frac{\part\left[f(x_1,\theta)...f(x_n,\theta)\right]}{\part\theta} \]

则有:

\[Cov_{\theta}(\hat{g},S)=\frac\part{\part\theta}\int...\int\hat{g}(x_1,...,x_n)f(x_1,\theta)...f(x_n,\theta)dx_1...dx_n=g'(\theta) \]


这个不等式给出了\(g(\theta)\)的无偏估计的方差的一个下界。

posted @ 2020-03-13 22:19  ExplodedVegetable  阅读(873)  评论(0编辑  收藏  举报