5.3.2估计量的相合性与渐近正态性
估计量的相合性与渐近正态性 详细讲解与推导
一、引言
参数估计的核心是用样本构造的统计量去估计总体的未知参数。我们不仅关心估计量在有限样本下的性质(无偏性、有效性),更关心样本量n趋向无穷时的大样本性质:当样本量越来越大时,估计量能否无限靠近真实值?它的极限分布是什么?
本章的相合性回答了第一个问题,是估计量最基本的大样本要求;渐近正态性回答了第二个问题,是大样本统计推断(区间估计、假设检验)的核心理论基础。
二、相合性(一致性)
2.1 核心定义
设总体\(X \sim f(x,\theta)\),\(\theta \in \Theta\)为待估参数,\(\Theta\)为参数空间;\(X_1,X_2,\dots,X_n\)是来自\(X\)的独立同分布(i.i.d.)样本,\(\widehat{g}_n = \widehat{g}(X_1,\dots,X_n)\)是待估函数\(g(\theta)\)的估计量。
定义1 弱相合估计(简称相合估计)
当\(n \to +\infty\)时,若对所有\(\theta \in \Theta\),都有
则称\(\widehat{g}\)是\(g(\theta)\)的弱相合估计。
- 依概率收敛\(\stackrel{P_\theta}{\longrightarrow}\)的含义:对任意\(\varepsilon>0\),有\[\lim_{n \to \infty} P_\theta\left( \left| \widehat{g}_n - g(\theta) \right| \geq \varepsilon \right) = 0 \]通俗解释:样本量n越大,估计量与真实值的偏差超过任意小正数的概率趋近于0,n足够大时估计量“几乎”等于真实值。
定义2 强相合估计
当\(n \to +\infty\)时,若对所有\(\theta \in \Theta\),都有
则称\(\widehat{g}\)是\(g(\theta)\)的强相合估计。
- 几乎必然收敛(以概率1收敛)\(\stackrel{\text{a.e. } P_\theta}{\longrightarrow}\)的含义:\[P_\theta\left( \lim_{n \to \infty} \widehat{g}_n = g(\theta) \right) = 1 \]通俗解释:当n趋向无穷时,估计量序列以概率1收敛到真实值,要求比弱相合更严格。
收敛关系
强相合\(\implies\)弱相合,反之不成立(几乎必然收敛可推出依概率收敛,反之不然)。
2.2 相合性的核心判别引理
直接用定义验证相合性非常繁琐,以下3个引理是判断相合性的核心工具。
引理5.3.1 矩判别法
-
r阶矩收敛判别:若\(n \to \infty\)时,\(E\left| \widehat{g}_n - g(\theta) \right|^r \to 0\)(\(r>0\),常用r=1或r=2),则\(\widehat{g}_n\)是\(g(\theta)\)的相合估计。
- 证明:由马尔可夫不等式,对任意\(\varepsilon>0\),有\[0 \leq P\left( |\widehat{g}_n - g(\theta)| \geq \varepsilon \right) \leq \frac{E|\widehat{g}_n - g(\theta)|^r}{\varepsilon^r} \]当\(n \to \infty\)时,右边分子趋向0,由夹逼准则,左边概率趋向0,满足依概率收敛定义。
- 证明:由马尔可夫不等式,对任意\(\varepsilon>0\),有
-
方差+偏差判别:若\(\text{Var}[\widehat{g}_n] \to 0\),且\(E[\widehat{g}_n] \to g(\theta)\)(渐近无偏),或\(E[\widehat{g}_n] = g(\theta)\)(无偏),则\(\widehat{g}_n\)是\(g(\theta)\)的相合估计。
- 证明:均方误差分解为:\[E\left( \widehat{g}_n - g(\theta) \right)^2 = \text{Var}(\widehat{g}_n) + \left( E\widehat{g}_n - g(\theta) \right)^2 \]已知\(\text{Var}(\widehat{g}_n) \to 0\),偏差\(E\widehat{g}_n - g(\theta) \to 0\),因此均方误差趋向0。由r=2时的矩判别法,直接得相合性。
- 特别地:无偏估计只要方差趋向0,就一定是相合估计,这是最常用的判别方法。
- 证明:均方误差分解为:
-
强相合判别:若\(\sum_{n=1}^{\infty} \text{Var}[\widehat{g}_n]\)收敛,且\(E[\widehat{g}_n] \to g(\theta)\)或\(E[\widehat{g}_n] = g(\theta)\),则\(\widehat{g}_n\)是\(g(\theta)\)的强相合估计。
- 证明:由切比雪夫不等式,对任意\(\varepsilon>0\),有\[P\left( |\widehat{g}_n - E\widehat{g}_n| \geq \frac{\varepsilon}{2} \right) \leq \frac{4\text{Var}(\widehat{g}_n)}{\varepsilon^2} \]因\(\sum_{n=1}^\infty \text{Var}(\widehat{g}_n)\)收敛,故\(\sum_{n=1}^\infty P\left( |\widehat{g}_n - E\widehat{g}_n| \geq \frac{\varepsilon}{2} \right) < \infty\)。
由Borel-Cantelli引理,\(P(\text{无穷多个事件发生})=0\),即\(\widehat{g}_n - E\widehat{g}_n \stackrel{\text{a.e.}}{\longrightarrow} 0\)。
结合\(E\widehat{g}_n \to g(\theta)\),得\(\widehat{g}_n \stackrel{\text{a.e.}}{\longrightarrow} g(\theta)\),强相合性得证。
- 证明:由切比雪夫不等式,对任意\(\varepsilon>0\),有
引理5.3.2 相合性的连续映射定理
若\(\widehat{g}_n\)是\(g(\theta)\)的相合(或强相合)估计,函数\(\varphi(y)\)在\(y=g(\theta)\)处连续,则\(\varphi(\widehat{g}_n)\)是\(\varphi(g(\theta))\)的相合(或强相合)估计。
- 证明:依概率收敛/几乎必然收敛的连续映射定理:若\(X_n \stackrel{P/\text{a.e.}}{\longrightarrow} a\),\(\varphi\)在\(a\)处连续,则\(\varphi(X_n) \stackrel{P/\text{a.e.}}{\longrightarrow} \varphi(a)\),直接套用得证。
- 核心意义:相合估计的连续函数,仍是对应真实值的相合估计,极大拓展了相合估计的构造范围。
2.3 典型例题的详细证明
例5.3.2 样本均值与样本方差的强相合性
设\(X_1,\dots,X_n\) i.i.d.,\(E(X_1)=a(\theta)\),\(\text{Var}(X_1)=\sigma^2(\theta)\),证明:
- 样本均值\(\overline{X} = \frac{1}{n}\sum_{i=1}^n X_i\)是\(a(\theta)\)的强相合估计;
- 样本方差\(S^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \overline{X})^2\)是\(\sigma^2(\theta)\)的强相合估计。
证明:
-
样本均值的强相合性
由独立同分布的强大数定律:i.i.d.序列若一阶矩存在,则\(\overline{X} \stackrel{\text{a.e.}}{\longrightarrow} E(X_1) = a(\theta)\),直接满足强相合定义,得证。 -
样本方差的强相合性
先对\(S^2\)做恒等变形:\[\sum_{i=1}^n (X_i - \overline{X})^2 = \sum_{i=1}^n X_i^2 - n\overline{X}^2 \]两边除以n得:
\[S^2 = \frac{1}{n}\sum_{i=1}^n X_i^2 - \overline{X}^2 \]- 对第一项:\(X_1^2,\dots,X_n^2\) i.i.d.,且\(E(X_1^2) = \sigma^2(\theta) + a^2(\theta)\),由强大数定律:\[\frac{1}{n}\sum_{i=1}^n X_i^2 \stackrel{\text{a.e.}}{\longrightarrow} E(X_1^2) = \sigma^2(\theta) + a^2(\theta) \]
- 对第二项:由连续映射定理,\(\overline{X}^2 \stackrel{\text{a.e.}}{\longrightarrow} a^2(\theta)\)。
结合两项极限:
\[S^2 \stackrel{\text{a.e.}}{\longrightarrow} [\sigma^2(\theta) + a^2(\theta)] - a^2(\theta) = \sigma^2(\theta) \]因此\(S^2\)是\(\sigma^2(\theta)\)的强相合估计,得证。
- 对第一项:\(X_1^2,\dots,X_n^2\) i.i.d.,且\(E(X_1^2) = \sigma^2(\theta) + a^2(\theta)\),由强大数定律:
例5.3.3 加权均值的相合性
设\(X_1,\dots,X_n\) i.i.d.,\(E(X_1)=\mu\),\(\text{Var}(X_1)=\sigma^2 < \infty\),证明\(\widehat{\mu} = \frac{2}{n(n+1)}\sum_{i=1}^n iX_i\)是\(\mu\)的相合估计。
证明:用引理5.3.1的方差+偏差判别法。
-
验证无偏性
由期望的线性性:\[E\widehat{\mu} = \frac{2}{n(n+1)} \sum_{i=1}^n i E(X_i) = \frac{2\mu}{n(n+1)} \cdot \frac{n(n+1)}{2} = \mu \]因此\(\widehat{\mu}\)是\(\mu\)的无偏估计。
-
验证方差趋向0
由独立性,方差满足\(\text{Var}(\sum a_i X_i) = \sum a_i^2 \text{Var}(X_i)\):\[\text{Var}(\widehat{\mu}) = \left( \frac{2}{n(n+1)} \right)^2 \sum_{i=1}^n i^2 \sigma^2 \]代入平方和公式\(\sum_{i=1}^n i^2 = \frac{n(n+1)(2n+1)}{6}\),化简得:
\[\text{Var}(\widehat{\mu}) = \frac{4\sigma^2}{n^2(n+1)^2} \cdot \frac{n(n+1)(2n+1)}{6} = \frac{2\sigma^2(2n+1)}{3n(n+1)} \]当\(n \to \infty\)时,\(\text{Var}(\widehat{\mu}) \sim \frac{4\sigma^2}{3n} \to 0\)。
-
结论
无偏估计的方差趋向0,由引理5.3.1,\(\widehat{\mu} \stackrel{P}{\longrightarrow} \mu\),是\(\mu\)的相合估计,得证。
例5.3.4 分层模型的相合性分析
设\(Y_{ij} = \mu + u_i + \xi_{ij}\),\(i=1,\dots,n\),\(j=1,\dots,m\);\(E(u_i)=0\),\(\text{Var}(u_i)=\sigma_u^2>0\);\(E(\xi_{ij})=0\),\(\text{Var}(\xi_{ij})=\sigma^2>0\);所有\(u_i,\xi_{ij}\)相互独立。设\(\overline{Y} = \frac{1}{mn}\sum_{i=1}^n \sum_{j=1}^m Y_{ij}\),证明:
- \(n \to \infty\)、m固定时,\(\overline{Y}\)是\(\mu\)的相合估计;
- \(m \to \infty\)、n固定时,\(\overline{Y}\)不是\(\mu\)的相合估计。
证明:
先对\(\overline{Y} - \mu\)做分解:
记\(a_n = \frac{1}{n}\sum_{i=1}^n u_i\),\(b_{mn} = \frac{1}{mn}\sum_{i,j} \xi_{ij}\),则\(\overline{Y} - \mu = a_n + b_{mn}\)。
计算矩:\(E(a_n)=E(b_{mn})=0\),\(\text{Var}(a_n)=\frac{\sigma_u^2}{n}\),\(\text{Var}(b_{mn})=\frac{\sigma^2}{mn}\)。
-
n→∞、m固定时的相合性
- \(a_n\):\(\text{Var}(a_n)=\frac{\sigma_u^2}{n} \to 0\),无偏,故\(a_n \stackrel{P}{\longrightarrow} 0\);
- \(b_{mn}\):m固定,\(\text{Var}(b_{mn})=\frac{\sigma^2}{mn} \to 0\),无偏,故\(b_{mn} \stackrel{P}{\longrightarrow} 0\)。
由依概率收敛的可加性,\(\overline{Y} - \mu = a_n + b_{mn} \stackrel{P}{\longrightarrow} 0\),即\(\overline{Y} \stackrel{P}{\longrightarrow} \mu\),是相合估计。
-
m→∞、n固定时的非相合性
- \(b_{mn}\):n固定,\(\text{Var}(b_{mn})=\frac{\sigma^2}{mn} \to 0\),故\(b_{mn} \stackrel{P}{\longrightarrow} 0\);
- \(a_n\):n固定,\(\text{Var}(a_n)=\frac{\sigma_u^2}{n} > 0\),是与m无关的非退化随机变量,不收敛到0。
由Slutsky定理,\(\overline{Y} - \mu = a_n + b_{mn} \stackrel{L}{\longrightarrow} a_n\),极限分布非退化,不可能依概率收敛到0,因此\(\overline{Y}\)不是\(\mu\)的相合估计。
三、渐近正态性
相合性仅保证估计量收敛到真实值,但无法刻画收敛速度和极限分布,无法支撑大样本统计推断。渐近正态性解决了这个问题,刻画了估计量的大样本分布。
3.1 核心定义
定义5.3.2 相合渐近正态(CAN)估计
设\(\widehat{g}_n\)是\(g(\theta)\)的估计量,若存在\(\nu(\theta) > 0\),使得
则称\(\widehat{g}_n\)是渐近正态的,也称\(g(\theta)\)的相合渐近正态(CAN)估计。
- 依分布收敛\(\stackrel{L}{\longrightarrow}\)的含义:对任意实数x,有\[\lim_{n \to \infty} P_\theta\left( Z_n \leq x \right) = \Phi\left( \frac{x}{\sqrt{\nu(\theta)}} \right) \]其中\(\Phi(\cdot)\)是标准正态分布的分布函数。
定义的核心要点
- \(\sqrt{n}\)的意义:相合估计满足\(\widehat{g}_n - g(\theta) \stackrel{P}{\longrightarrow} 0\),直接取极限是退化的0;乘\(\sqrt{n}\)后将其“放大”,得到非退化的正态分布,刻画了收敛速度:\(\widehat{g}_n - g(\theta) = O_p(n^{-1/2})\),即与\(1/\sqrt{n}\)同阶。
- CAN估计必为相合估计:\(\sqrt{n}(\widehat{g}_n - g(\theta))\)依概率有界,故\(\widehat{g}_n - g(\theta) = O_p(n^{-1/2}) \stackrel{P}{\longrightarrow} 0\),满足相合性。
- 渐近方差:\(\nu(\theta)\)称为\(\sqrt{n}\widehat{g}_n\)的渐近方差,\(\nu(\theta)\)越小,估计量的渐近精度越高;CAN估计的方差阶为\(n^{-1}\),即\(\text{Var}(\widehat{g}_n) \approx \frac{\nu(\theta)}{n}\)。
3.2 渐近正态性的核心引理
核心工具:中心极限定理(CLT)
对i.i.d.样本,若\(E(X_1)=\mu\),\(\text{Var}(X_1)=\sigma^2 < \infty\),则
样本均值天然是总体均值的CAN估计,是构造所有CAN估计的基础。
引理5.3.3 Delta方法(渐近正态性的连续映射定理)
若\(\widehat{g}_n\)是\(g(\theta)\)的CAN估计,即\(\sqrt{n}(\widehat{g}_n - g(\theta)) \stackrel{L}{\longrightarrow} N(0, \nu(\theta))\);函数\(\varphi(y)\)在\(y=g(\theta)\)处可导,且\(\varphi'(g(\theta)) \neq 0\),则\(\varphi(\widehat{g}_n)\)是\(\varphi(g(\theta))\)的CAN估计,且
证明:
由\(\varphi\)在\(g(\theta)\)处可导,做泰勒展开:
两边乘\(\sqrt{n}\)得:
- 第一项:\(\sqrt{n}(\widehat{g}_n - g(\theta)) \stackrel{L}{\longrightarrow} N(0, \nu(\theta))\),故第一项依分布收敛到\(\varphi'(g(\theta)) \cdot N(0, \nu(\theta)) = N(0, [\varphi'(g(\theta))]^2 \nu(\theta))\);
- 第二项:\(\widehat{g}_n - g(\theta) = O_p(n^{-1/2})\),故\(o(|\widehat{g}_n - g(\theta)|) = o_p(n^{-1/2})\),因此\(\sqrt{n} \cdot o_p(n^{-1/2}) = o_p(1) \stackrel{P}{\longrightarrow} 0\)。
由Slutsky定理,两项相加的极限分布等于第一项的极限分布,得证。
- 核心意义:只要得到一个参数的CAN估计,其任意可导函数的CAN估计可直接通过代入得到,同时可算出渐近方差,是大样本统计最常用的工具。
3.3 典型例题的详细证明
例5.3.7 样本均值与样本方差的渐近正态性
设\(X_1,\dots,X_n\) i.i.d.,\(E(X_1)=\mu\),\(\text{Var}(X_1)=\sigma^2\),\(\text{Var}(X_1^2)=\tau^2\),\(S^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \overline{X})^2\),证明:
- \(\overline{X}\)是\(\mu\)的CAN估计,且\(\sqrt{n}\frac{\overline{X} - \mu}{S} \stackrel{L}{\longrightarrow} N(0,1)\);
- \(S^2\)是\(\sigma^2\)的CAN估计,且\(\sqrt{n}(S^2 - \sigma^2) \stackrel{L}{\longrightarrow} N(0, \tau^2)\)。
证明:
-
样本均值的CAN估计与标准化渐近正态性
- 由独立同分布中心极限定理,直接得:\[\frac{\sqrt{n}(\overline{X} - \mu)}{\sigma} \stackrel{L}{\longrightarrow} N(0,1) \]两边乘\(\sigma\)得\(\sqrt{n}(\overline{X} - \mu) \stackrel{L}{\longrightarrow} N(0, \sigma^2)\),满足CAN估计定义,故\(\overline{X}\)是\(\mu\)的CAN估计。
- 对标准化统计量做变形:\[\sqrt{n}\frac{\overline{X} - \mu}{S} = \sqrt{n}\frac{\overline{X} - \mu}{\sigma} \cdot \frac{\sigma}{S} \]已知第一项\(\stackrel{L}{\longrightarrow} N(0,1)\);由例5.3.2,\(S^2 \stackrel{P}{\longrightarrow} \sigma^2\),故\(S \stackrel{P}{\longrightarrow} \sigma\),因此第二项\(\frac{\sigma}{S} \stackrel{P}{\longrightarrow} 1\)。
由Slutsky定理,乘积的极限分布等于第一项的极限分布,即\(\sqrt{n}\frac{\overline{X} - \mu}{S} \stackrel{L}{\longrightarrow} N(0,1)\),得证。
- 由独立同分布中心极限定理,直接得:
-
样本方差的CAN估计
利用\(S^2\)的恒等变形:\[S^2 = \frac{1}{n}\sum_{i=1}^n X_i^2 - \overline{X}^2 \]因此:
\[\sqrt{n}(S^2 - \sigma^2) = \sqrt{n}\left( \frac{1}{n}\sum_{i=1}^n X_i^2 - \sigma^2 \right) - \sqrt{n} \cdot \overline{X}^2 \]- \(S^2\)具有平移不变性,不妨设\(\mu=0\),此时\(E(X_1^2)=\sigma^2\),\(\text{Var}(X_1^2)=\tau^2\)。由中心极限定理,第一项:\[\sqrt{n}\left( \frac{1}{n}\sum_{i=1}^n X_i^2 - \sigma^2 \right) \stackrel{L}{\longrightarrow} N(0, \tau^2) \]
- 第二项变形为\(\sqrt{n} \cdot \overline{X}^2 = \frac{1}{\sqrt{n}} \cdot (\sqrt{n}\overline{X})^2\)。\(\sqrt{n}\overline{X} \stackrel{L}{\longrightarrow} N(0, \sigma^2)\),故\((\sqrt{n}\overline{X})^2 = O_p(1)\),因此第二项\(\stackrel{P}{\longrightarrow} 0\)。
由Slutsky定理,\(\sqrt{n}(S^2 - \sigma^2) \stackrel{L}{\longrightarrow} N(0, \tau^2)\),满足CAN估计定义,得证。
- \(S^2\)具有平移不变性,不妨设\(\mu=0\),此时\(E(X_1^2)=\sigma^2\),\(\text{Var}(X_1^2)=\tau^2\)。由中心极限定理,第一项:
例5.3.8 泊松分布参数函数的CAN估计
设\(X_1,\dots,X_n\) i.i.d.,\(X_1 \sim P(\lambda)\),求\(e^{-\lambda}\)的CAN估计。
解:
-
先构造\(\lambda\)的CAN估计
泊松分布满足\(E(X_1)=\text{Var}(X_1)=\lambda\),由中心极限定理:\[\sqrt{n}(\overline{X} - \lambda) \stackrel{L}{\longrightarrow} N(0, \lambda) \]因此\(\overline{X}\)是\(\lambda\)的CAN估计,渐近方差\(\nu(\lambda)=\lambda\)。
-
用Delta方法构造\(e^{-\lambda}\)的CAN估计
令\(\varphi(\lambda)=e^{-\lambda}\),则\(\varphi'(\lambda)=-e^{-\lambda} \neq 0\),满足Delta方法条件。
因此\(\varphi(\overline{X})=e^{-\overline{X}}\)是\(e^{-\lambda}\)的CAN估计,渐近方差为:\[[\varphi'(\lambda)]^2 \cdot \nu(\lambda) = \lambda e^{-2\lambda} \]即:
\[\sqrt{n}(e^{-\overline{X}} - e^{-\lambda}) \stackrel{L}{\longrightarrow} N(0, \lambda e^{-2\lambda}) \] -
补充:\(e^{-\lambda}\)的UMVUE\(\widehat{g}_n = \left(1-\frac{1}{n}\right)^{\sum_{i=1}^n X_i}\)也是CAN估计,且与\(e^{-\overline{X}}\)有相同的渐近方差(证明见附录)。
四、最优渐近正态(BAN)估计简介
CAN估计的渐近方差越小,渐近精度越高,而正则分布族中,估计量的渐近方差存在理论下界——C-R下界。
对正则分布族,\(g(\theta)\)的无偏估计的方差满足C-R不等式:
其中\(I(\theta)\)是单个样本的Fisher信息。
对应到CAN估计,渐近方差的下界为\([g'(\theta)]^2 I^{-1}(\theta)\)。若CAN估计的渐近方差达到该下界,则称其为最优渐近正态(BAN)估计,是大样本意义下的最优估计。
注:极大似然估计(MLE)在正则条件下是BAN估计,这是MLE被广泛使用的核心原因之一。
五、核心知识点归纳总结
| 核心概念 | 定义与表达式 | 核心判别方法 | 关键性质 | 核心工具/定理 |
|---|---|---|---|---|
| 弱相合估计 | 对\(\forall \theta \in \Theta\),\(\widehat{g}_n \stackrel{P_\theta}{\longrightarrow} g(\theta)\),即\(\lim_{n \to \infty} P(|\widehat{g}_n - g(\theta)| \geq \varepsilon)=0\) | 1. \(E|\widehat{g}_n - g(\theta)|^r \to 0\)(r>0) 2. 无偏/渐近无偏 + 方差→0 3. 依概率收敛定义 |
1. 估计量的大样本基本要求,n足够大时估计量靠近真实值 2. 连续函数保持相合性 3. 强相合可推出弱相合,反之不成立 |
马尔可夫/切比雪夫不等式、弱大数定律、Slutsky定理 |
| 强相合估计 | 对\(\forall \theta \in \Theta\),\(\widehat{g}_n \stackrel{\text{a.e. } P_\theta}{\longrightarrow} g(\theta)\),即\(P(\lim_{n \to \infty} \widehat{g}_n = g(\theta))=1\) | 1. 无偏/渐近无偏 + \(\sum_{n=1}^\infty \text{Var}(\widehat{g}_n)\)收敛 2. 强大数定律 3. 几乎必然收敛定义 |
1. 比弱相合要求更严格,以概率1收敛到真实值 2. 连续函数保持强相合性 |
强大数定律、Borel-Cantelli引理 |
| CAN估计 | 存在\(\nu(\theta)>0\),使得\(\sqrt{n}(\widehat{g}_n - g(\theta)) \stackrel{L}{\longrightarrow} N(0, \nu(\theta))\) | 1. 中心极限定理(样本均值) 2. Delta方法(参数函数) |
1. CAN估计必为相合估计,反之不成立 2. 收敛速度为\(O_p(n^{-1/2})\) 3. 渐近方差越小,渐近精度越高 4. 可导函数保持渐近正态性 |
中心极限定理、Slutsky定理、泰勒展开(Delta方法) |
| BAN估计 | 渐近方差达到C-R下界的CAN估计,即\(\nu(\theta)=[g'(\theta)]^2 I^{-1}(\theta)\) | 验证渐近方差等于C-R下界 | 大样本意义下的最优估计,渐近精度达到理论下界 | C-R不等式、Fisher信息 |
最优渐近正态(BAN)估计 详细讲解与完整推导
一、BAN估计的核心定义与本质
1.1 定义拆解
定义5.3.3(最优渐近正态BAN估计)
设总体\(X \sim \{f(x,\theta), \theta \in \Theta\}\),\(n\)个样本的Fisher信息矩阵为\(I(\theta)\),单个样本的Fisher信息矩阵为\(i(\theta)\),满足
若待估函数\(g(\theta)\)的估计量\(\widehat{g}_n(X)\)满足
其中\(G(\theta) = \frac{\partial g(\theta)}{\partial \theta^\text{T}}\)(\(g(\theta)\)对参数\(\theta\)的梯度/雅可比矩阵),则称\(\widehat{g}_n(X)\)为\(g(\theta)\)的最优渐近正态(Best Asymptotic Normal, BAN)估计。
单参数简化形式
若\(\theta\)和\(g(\theta)\)均为单参数,\(G(\theta)=g'(\theta)\),定义简化为:
i.i.d.样本的特殊性质
若\(X_1,\dots,X_n\)独立同分布,则n个样本的Fisher信息 = n×单个样本的Fisher信息,即\(I(\theta) = n \cdot i(\theta)\),天然满足\(\frac{I(\theta)}{n}=i(\theta)\),这是绝大多数例题的前提。
1.2 BAN估计的核心本质
BAN估计是大样本意义下的最优估计,核心要求有两点:
- 首先必须是CAN估计(相合渐近正态估计):估计量满足渐近正态性,且天然具有相合性;
- 其次渐近方差达到C-R下界的渐近形式:C-R下界是无偏估计方差的理论最小值,BAN估计的渐近方差恰好达到这个下界,是大样本下精度最高的估计。
二、例题完整推导与证明
例5.3.9 正态分布下\(\overline{X}^2\)是\(\mu^2\)的BAN估计
设\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim N(\mu, \sigma^2)\),证明\(\overline{X}^2\)为\(\mu^2\)的BAN估计。
完整证明步骤
-
计算单个样本的Fisher信息\(i(\mu)\)
正态分布的概率密度为:\[f(x;\mu) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma^2} \right\} \]取对数得对数似然:
\[\ln f(x;\mu) = -\frac{1}{2}\ln(2\pi\sigma^2) - \frac{(x-\mu)^2}{2\sigma^2} \]对\(\mu\)求二阶偏导:
\[\frac{\partial^2 \ln f}{\partial \mu^2} = -\frac{1}{\sigma^2} \]单个样本的Fisher信息为:
\[i(\mu) = -E\left[ \frac{\partial^2 \ln f}{\partial \mu^2} \right] = -E\left[ -\frac{1}{\sigma^2} \right] = \frac{1}{\sigma^2} \] -
计算待估函数的导数
待估函数\(g(\mu)=\mu^2\),一阶导数为:\[g'(\mu) = 2\mu \] -
计算C-R下界对应的渐近方差
单参数BAN估计的理论最小渐近方差为:\[[g'(\mu)]^2 i^{-1}(\mu) = (2\mu)^2 \cdot \sigma^2 = 4\mu^2\sigma^2 \] -
推导估计量\(\overline{X}^2\)的渐近正态性
由独立同分布的中心极限定理,样本均值满足:\[\sqrt{n}(\overline{X} - \mu) \stackrel{L}{\longrightarrow} N(0, \sigma^2) \]即\(\overline{X}\)是\(\mu\)的CAN估计。
由Delta方法(可导函数保持渐近正态性),\(g(\mu)=\mu^2\)在\(\mu\)处可导且\(g'(\mu)\neq0\),因此:\[\sqrt{n}(\overline{X}^2 - \mu^2) \stackrel{L}{\longrightarrow} N\left( 0, [g'(\mu)]^2 \cdot \sigma^2 \right) = N(0, 4\mu^2\sigma^2) \] -
验证BAN估计
估计量\(\overline{X}^2\)的渐近方差恰好等于C-R下界对应的理论最小渐近方差,因此\(\overline{X}^2\)是\(\mu^2\)的BAN估计,得证。
例5.3.10 泊松分布下\(\left(1-\frac{1}{n}\right)^T\)是\(e^{-\lambda}\)的BAN估计
设\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim P(\lambda)\),证明\(\widehat{g}_n(X) = \left(1-\frac{1}{n}\right)^T\)(\(T=\sum_{i=1}^n X_i\))为\(g(\lambda)=e^{-\lambda}\)的BAN估计。
完整证明步骤
-
计算单个样本的Fisher信息\(i(\lambda)\)
泊松分布的概率质量函数为:\[P(X=x) = \frac{\lambda^x e^{-\lambda}}{x!}, \quad x=0,1,2,\dots \]取对数得对数似然:
\[\ln f(x;\lambda) = x\ln\lambda - \lambda - \ln(x!) \]对\(\lambda\)求二阶偏导:
\[\frac{\partial^2 \ln f}{\partial \lambda^2} = -\frac{x}{\lambda^2} \]单个样本的Fisher信息为:
\[i(\lambda) = -E\left[ \frac{\partial^2 \ln f}{\partial \lambda^2} \right] = -E\left[ -\frac{X}{\lambda^2} \right] = \frac{E[X]}{\lambda^2} = \frac{\lambda}{\lambda^2} = \frac{1}{\lambda} \] -
计算待估函数的导数
待估函数\(g(\lambda)=e^{-\lambda}\),一阶导数为:\[g'(\lambda) = -e^{-\lambda} \] -
计算C-R下界对应的渐近方差
理论最小渐近方差为:\[[g'(\lambda)]^2 i^{-1}(\lambda) = (-e^{-\lambda})^2 \cdot \lambda = \lambda e^{-2\lambda} \] -
推导估计量\(\widehat{g}_n\)的渐近正态性
首先,由中心极限定理,\(\sqrt{n}(\overline{X} - \lambda) \stackrel{L}{\longrightarrow} N(0, \lambda)\),结合Delta方法得:\[\sqrt{n}(e^{-\overline{X}} - e^{-\lambda}) \stackrel{L}{\longrightarrow} N(0, \lambda e^{-2\lambda}) \]对估计量做变形:\(T = \sum_{i=1}^n X_i = n\overline{X}\),因此\(\widehat{g}_n = \left(1-\frac{1}{n}\right)^{n\overline{X}}\)。
对\(\ln(1-\frac{1}{n})\)做泰勒展开:\(\ln(1-\frac{1}{n}) = -\frac{1}{n} - \frac{1}{2n^2} + o\left(\frac{1}{n^2}\right)\),因此:\[n\ln\left(1-\frac{1}{n}\right) = -1 - \frac{1}{2n} + o\left(\frac{1}{n}\right) \]代入估计量得:
\[\widehat{g}_n = \exp\left\{ n\overline{X} \ln\left(1-\frac{1}{n}\right) \right\} = e^{-\overline{X}} \cdot \exp\left\{ -\frac{\overline{X}}{2n} + o\left(\frac{1}{n}\right) \right\} \]对指数项泰勒展开:\(\exp\left\{ -\frac{\overline{X}}{2n} + o\left(\frac{1}{n}\right) \right\} = 1 - \frac{\overline{X}}{2n} + o\left(\frac{1}{n}\right)\),因此:
\[\widehat{g}_n - e^{-\overline{X}} = e^{-\overline{X}} \cdot \left( -\frac{\overline{X}}{2n} + o\left(\frac{1}{n}\right) \right) \]两边乘\(\sqrt{n}\)得:
\[\sqrt{n}(\widehat{g}_n - e^{-\overline{X}}) = e^{-\overline{X}} \cdot \left( -\frac{\overline{X}}{2\sqrt{n}} + o\left(\frac{1}{\sqrt{n}}\right) \right) \stackrel{P}{\longrightarrow} 0 \]分解目标项:
\[\sqrt{n}(\widehat{g}_n - e^{-\lambda}) = \sqrt{n}(e^{-\overline{X}} - e^{-\lambda}) + \sqrt{n}(\widehat{g}_n - e^{-\overline{X}}) \]第一项依分布收敛到\(N(0, \lambda e^{-2\lambda})\),第二项依概率收敛到0,由Slutsky定理得:
\[\sqrt{n}(\widehat{g}_n - e^{-\lambda}) \stackrel{L}{\longrightarrow} N(0, \lambda e^{-2\lambda}) \] -
验证BAN估计
估计量的渐近方差恰好等于C-R下界,因此\(\left(1-\frac{1}{n}\right)^T\)是\(e^{-\lambda}\)的BAN估计,得证。
例5.3.11 伯努利分布下\(\overline{X}(1-\overline{X})\)是\(\text{Var}(X_1)\)的BAN估计
设\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim b(1, \theta)\),\(0<\theta<1\),证明\(\varphi(\overline{X})=\overline{X}(1-\overline{X})\)为\(\sigma^2=\text{Var}(X_1)=\theta(1-\theta)\)的BAN估计(\(\theta \neq 1/2\))。
完整证明步骤
-
计算单个样本的Fisher信息\(i(\theta)\)
伯努利分布的概率质量函数为:\[P(X=x) = \theta^x (1-\theta)^{1-x}, \quad x=0,1 \]取对数得对数似然:
\[\ln f(x;\theta) = x\ln\theta + (1-x)\ln(1-\theta) \]对\(\theta\)求二阶偏导:
\[\frac{\partial^2 \ln f}{\partial \theta^2} = -\frac{x}{\theta^2} - \frac{1-x}{(1-\theta)^2} \]单个样本的Fisher信息为:
\[i(\theta) = -E\left[ \frac{\partial^2 \ln f}{\partial \theta^2} \right] = \frac{E[X]}{\theta^2} + \frac{E[1-X]}{(1-\theta)^2} = \frac{\theta}{\theta^2} + \frac{1-\theta}{(1-\theta)^2} = \frac{1}{\theta(1-\theta)} \] -
计算待估函数的导数
待估函数\(g(\theta)=\theta(1-\theta)=\theta-\theta^2\),一阶导数为:\[g'(\theta) = 1-2\theta \]当\(\theta \neq 1/2\)时,\(g'(\theta) \neq 0\),满足Delta方法的条件。
-
计算C-R下界对应的渐近方差
理论最小渐近方差为:\[[g'(\theta)]^2 i^{-1}(\theta) = (1-2\theta)^2 \cdot \theta(1-\theta) \] -
推导估计量\(\varphi(\overline{X})\)的渐近正态性
由中心极限定理,样本均值满足:\[\sqrt{n}(\overline{X} - \theta) \stackrel{L}{\longrightarrow} N(0, \theta(1-\theta)) \]即\(\overline{X}\)是\(\theta\)的CAN估计。
由Delta方法,\(g(\theta)=\theta(1-\theta)\)在\(\theta\)处可导且\(g'(\theta)\neq0\),因此:\[\sqrt{n}\left( \overline{X}(1-\overline{X}) - \theta(1-\theta) \right) \stackrel{L}{\longrightarrow} N\left( 0, (1-2\theta)^2 \theta(1-\theta) \right) \] -
验证BAN估计
估计量的渐近方差恰好等于C-R下界,因此\(\overline{X}(1-\overline{X})\)是\(\sigma^2=\theta(1-\theta)\)的BAN估计(\(\theta \neq 1/2\)),得证。
特殊情况:\(\theta=1/2\)的补充说明
当\(\theta=1/2\)时,\(g'(\theta)=1-2\times(1/2)=0\),一阶Delta方法失效,需用二阶泰勒展开:
两边乘\(n\)得:
已知\(\sqrt{n}(\overline{X}-1/2) \stackrel{L}{\longrightarrow} N(0, 1/4)\),因此\(\left( 2\sqrt{n}(\overline{X}-1/2) \right)^2 \stackrel{L}{\longrightarrow} \chi^2(1)\),最终得:
此时极限分布不再是正态分布,因此\(\varphi(\overline{X})\)不是CAN估计,自然也不是BAN估计。
三、核心知识点汇总表
| 核心概念 | 核心要求 | 关键公式 | 核心性质 |
|---|---|---|---|
| BAN估计 | 1. 是CAN估计(渐近正态+相合) 2. 渐近方差达到C-R下界 |
单参数:\(\sqrt{n}(\widehat{g}_n - g(\theta)) \stackrel{L}{\longrightarrow} N(0, [g'(\theta)]^2 i^{-1}(\theta))\) | 大样本意义下的最优估计,渐近精度达到理论下界 |
| Fisher信息(单样本) | 衡量分布包含的参数信息量 | \(i(\theta) = -E\left[ \frac{\partial^2 \ln f(x;\theta)}{\partial \theta^2} \right]\) | i.i.d.样本下,n个样本的Fisher信息\(I(\theta)=n\cdot i(\theta)\) |
| Delta方法 | 函数在真实值处可导,且一阶导数非0 | \(\sqrt{n}(\varphi(\widehat{\theta}_n)-\varphi(\theta)) \stackrel{L}{\longrightarrow} N(0, [\varphi'(\theta)]^2 \nu(\theta))\) | 保持渐近正态性,可直接计算参数函数的渐近方差 |
| Slutsky定理 | 一项依分布收敛,另一项依概率收敛到常数 | 若\(X_n \stackrel{L}{\longrightarrow} X\),\(Y_n \stackrel{P}{\longrightarrow} c\),则\(X_n+Y_n \stackrel{L}{\longrightarrow} X+c\),\(X_n Y_n \stackrel{L}{\longrightarrow} cX\) | 处理渐近正态性推导中的余项,是大样本分析的核心工具 |
posted on 2026-02-25 08:37 Indian_Mysore 阅读(0) 评论(0) 收藏 举报
浙公网安备 33010602011771号