【9】点估计的优良性准则

估计量的无偏性

设某统计总体的分布包含未知参数\(\theta_1,...,\theta_k\)，\(X_1,...,X_n\)是从该总体中抽出的样本，要估计\(g(\theta_1,...,\theta_k)\)。g为一已知函数，设\(\hat{g}(X_1,...,X_n)\)是一个估计量，若对任何可能的\((\theta_1,...,\theta_k)\)都有：

\[E_{\theta_1,...,\theta_k}[\hat{g}(X_1,...,X_n)]=g(\theta_1,...,\theta_k) \]

则称\(\hat{g}\)是\(g(\theta_1,...,\theta_k)\)的一个无偏估计量。

估计量的无偏性具有两种含义：
- 没有系统性的偏差，但随机误差总是存在，但把这些正负偏差在概率上平均起来，其值为零；
- 若估计量具有无偏性，则在大量次数使用取平均时，能以接近100%的把握无限逼近被估计的量。

样本方差：\(S^2=\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{n-1}\)是总体方差\(\sigma^2\)的无偏估计：

\[\begin{align} \sum_{i=1}^n(X_i-\overline{X})^2=&\sum_{i=1}^n[(X_i-a)-(\overline{X}-a)]^2\\ =&\sum_{i=1}^n(X_i-a)^2-2(\overline{X}-a)\sum_{i=1}^n(X_i-a)+n(\overline{X}-a)^2\\ \because&\left(\sum_{i=1}^n(X_i-a)=n(\overline{X}-a) \right)\\ =&\sum_{i=1}^n(X_i-a)^2-n(\overline{X}-a)^2\\ =&\sum_{i=1}^n(X_i-E(X_i))^2-n(\overline{X}-E(\overline{X}))^2\\ =&Var(X_i)-Var(\overline{X})\\ =&\sigma^2-Var(\frac{\sum_{i=1}^nX_i}{n})\\ =&\sigma^2-\sum_{i=1}^n\frac{Var(X_i)}{n^2}\\ =&\sigma^2-\frac{\sigma^2}{n} \end{align} \]

\[\begin{align} E(S^2)=&\frac{1}{n-1}E\left(\sum_{i=1}^n(X_i-\overline{X})^2\right)\\ =&\frac{1}{n-1}\left(n\sigma^2-\sigma^2\right)\\ =&\sigma^2 \end{align} \]
即证明了，\(S^2\)是\(\sigma^2\)的无偏估计。

这里分母为\((n-1)\)是因为\(\overline{X}\)未知，而估计均值时用去了一个“自由度”。因此，自由度为“\(n-1\)”.

无偏估计不具有不变性，除非\(g(\theta)\)是\(\theta\)的线性函数。

（Jackknife法-Quenouille,1949）

设\(T(x)\)是基于样本\(x=(x_1,\dots,x_n)\)的关于\(g(\theta)\)的估计量，且满足\(E_\theta T(x)=g(\theta)+O(\frac1n)\),如以\(x_{(-i)}\)表示从样本中删去\(x_i\)后的向量，则\(T(x)\)的刀切统计量定义为：

\[T_J(x)=nT(x)-\frac{n-1}{n}\sum_{i=1}^NT(x_{(-i)}) \]

可以证明刀切统计量具有以下性质：

\[E_{\theta}T_J(x)=g(\theta)+O(\frac1{n^2}) \]

最小方差无偏估计

一个参数往往不止有一个无偏估计，想要从众多无偏估计中寻找最优的涉及到两个问题：

优良性准则
已定准则的情况下，如何去寻找最优者

均方误差

\[M_{\hat{\theta}}(\theta)=E_{\theta}[\hat{\theta}(X_1,...,X_n)-\theta]^2 \]

上式称为估计量的均方误差，也可写作：

\[M_{\hat{\theta}}(\theta)=E[\hat{\theta}(X_1,...,X_n)-\theta]^2=Var_{\theta}(\hat{\theta})+[E_{\theta}(\hat{\theta})-\theta]^2 \]

若\(\hat{\theta}\)是\(\theta\)的无偏估计，则第二项为0.

最小方差无偏估计

若局限于无偏估计的范围，且采用均方误差的准则，则两个无偏估计的比较归结于寻找方差小者为优。则可以设若\(\hat{\theta}\)是\(g( \theta)\)的无偏估计，且他的方差对\(g(\theta )\)的任何一个无偏估计\(\hat{\theta_1}\)都有：

\[Var_{\theta}(\hat{\theta})\leq Var_{\theta}(\hat{\theta}_1) \]

对\(\theta\)的任何可能取值都成立，则称\(\hat{\theta}\)为\(g(\theta)\)的一个最小方差无偏估计(Minimum Variance Unbiased, MVU)。

求解MVU估计的方法：克拉美-劳不等式

首先研究\(g(\theta)\)的一切无偏估计中，方差最小能达到多少，如果求出了一个方差的下界，则如果某个估计\(\hat{\theta}\)的方差达到了这个下界，那他必定就是MVU估计。设总体的概率密度函数\(f(x,\theta)\)只包含了一个参数，\(X_1,X_2,...,X_n\)为从该总体中抽出的样本，要估计\(g(\theta)\)，记：

\[I(\theta)=\int\left((\frac{\partial f(x,\theta)}{\partial\theta})^2/f(x,\theta)\right)dx \]

Cramer-Rao Inequality.

在一定条件下，对\(g(\theta)\)的任意无偏估计\(\hat{g}=\hat{g}(X_1,...,X_n)\),有：

\[Var_{\theta}(\hat{g})\geq\frac{[g'(\theta)]^2}{nI(\theta)} \]

记:

\[S=S(X_1,...,X_n,\theta)=\sum_{i=1}^n\frac{\partial\ln{f(X_i,\theta)}}{\partial\theta}=\sum_{i=1}^n\frac{\partial f(X_i,\theta)}{\partial\theta}/f(X_i,\theta) \]

因为\(f(x,\theta)\)为密度函数，则\(\int f(x,\theta)dx=1\),对两边同时求导，则：

\[E_{\theta}\left[\frac{\partial f(X_i,\theta)}{\partial\theta}/f(X_i,\theta)\right]=\int\left[\frac{\partial f(x,\theta)}{\partial\theta}/f(x,\theta)\right]f(x,\theta)dx=0 \]

于是，由\(X_1,...,X_n\)的独立性，有：

\[\begin{align} Var_{\theta}(S)=&\sum_{i=1}^nVar_{\theta}\left(\frac{\partial f(X_i,\theta)}{\part\theta}/f(X_i,\theta)\right)\\ =&\sum_{i=1}^nE_{\theta}\left[\frac{\partial f(X_i,\theta)}{\partial\theta}/f(X_i,\theta)\right]^2\\ =&n\int\left[\frac{\partial f(x,\theta)}{\partial\theta}/f(x,\theta)\right]^2f(x,\theta)dx\\ =&nI(\theta) \end{align} \]

又由 Cauchy-Schwarz Inequality ：

\[[Cov_{\theta}(\hat{g},S)]^2\leq Var_{\theta}(\hat{g})Var_{\theta}(S)=nI(\theta)Var_{\theta}(\hat{g}) \]

因为：\(E_{\theta}(S)=0\):

\[Cov_{\theta}(\hat{g},S)=E_{\theta}(\hat{g}S)\\=\int...\int\hat{g}(x_1,...,x_n)\sum_{i=1}^n\left[\frac{\partial f(x,\theta)}{\partial\theta}/f(x,\theta)\right]\prod_{i=1}^nf(x_i,\theta)dx_1...dx_n\\ =\frac{\part\left[f(x_1,\theta)...f(x_n,\theta)\right]}{\part\theta} \]

则有：

\[Cov_{\theta}(\hat{g},S)=\frac\part{\part\theta}\int...\int\hat{g}(x_1,...,x_n)f(x_1,\theta)...f(x_n,\theta)dx_1...dx_n=g'(\theta) \]

这个不等式给出了\(g(\theta)\)的无偏估计的方差的一个下界。

posted @ 2020-03-13 22:19 ExplodedVegetable 阅读(873) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

【9】点估计的优良性准则

【9】点估计的优良性准则

估计量的无偏性

最小方差无偏估计

均方误差

最小方差无偏估计

求解MVU估计的方法：克拉美-劳 不等式

公告

求解MVU估计的方法：克拉美-劳不等式