夫君子之行，静以修身，俭以养德；非澹泊无以明志，非宁静无以致远。夫学须静也，才须学也；非学无以广才，非志无以成学。怠慢则不能励精，险躁则不能冶性。年与时驰，意与岁去，遂成枯落，多不接世。悲守穷庐，将复何及！

5.3.2估计量的相合性与渐近正态性

估计量的相合性与渐近正态性详细讲解与推导

一、引言

参数估计的核心是用样本构造的统计量去估计总体的未知参数。我们不仅关心估计量在有限样本下的性质（无偏性、有效性），更关心样本量n趋向无穷时的大样本性质：当样本量越来越大时，估计量能否无限靠近真实值？它的极限分布是什么？
本章的相合性回答了第一个问题，是估计量最基本的大样本要求；渐近正态性回答了第二个问题，是大样本统计推断（区间估计、假设检验）的核心理论基础。

二、相合性（一致性）

2.1 核心定义

设总体\(X \sim f(x,\theta)\)，\(\theta \in \Theta\)为待估参数，\(\Theta\)为参数空间；\(X_1,X_2,\dots,X_n\)是来自\(X\)的独立同分布（i.i.d.）样本，\(\widehat{g}_n = \widehat{g}(X_1,\dots,X_n)\)是待估函数\(g(\theta)\)的估计量。

定义1 弱相合估计（简称相合估计）

当\(n \to +\infty\)时，若对所有\(\theta \in \Theta\)，都有

\[\widehat{g}(X_1,\dots,X_n) \stackrel{P_\theta}{\longrightarrow} g(\theta) \]

则称\(\widehat{g}\)是\(g(\theta)\)的弱相合估计。

依概率收敛\(\stackrel{P_\theta}{\longrightarrow}\)的含义：对任意\(\varepsilon>0\)，有
\[\lim_{n \to \infty} P_\theta\left( \left| \widehat{g}_n - g(\theta) \right| \geq \varepsilon \right) = 0 \]
通俗解释：样本量n越大，估计量与真实值的偏差超过任意小正数的概率趋近于0，n足够大时估计量“几乎”等于真实值。

定义2 强相合估计

当\(n \to +\infty\)时，若对所有\(\theta \in \Theta\)，都有

\[\widehat{g}(X_1,\dots,X_n) \stackrel{\text{a.e. } P_\theta}{\longrightarrow} g(\theta) \]

则称\(\widehat{g}\)是\(g(\theta)\)的强相合估计。

几乎必然收敛（以概率1收敛）\(\stackrel{\text{a.e. } P_\theta}{\longrightarrow}\)的含义：
\[P_\theta\left( \lim_{n \to \infty} \widehat{g}_n = g(\theta) \right) = 1 \]
通俗解释：当n趋向无穷时，估计量序列以概率1收敛到真实值，要求比弱相合更严格。

收敛关系

强相合\(\implies\)弱相合，反之不成立（几乎必然收敛可推出依概率收敛，反之不然）。

2.2 相合性的核心判别引理

直接用定义验证相合性非常繁琐，以下3个引理是判断相合性的核心工具。

引理5.3.1 矩判别法

r阶矩收敛判别：若\(n \to \infty\)时，\(E\left| \widehat{g}_n - g(\theta) \right|^r \to 0\)（\(r>0\)，常用r=1或r=2），则\(\widehat{g}_n\)是\(g(\theta)\)的相合估计。
- 证明：由马尔可夫不等式，对任意\(\varepsilon>0\)，有
  \[0 \leq P\left( |\widehat{g}_n - g(\theta)| \geq \varepsilon \right) \leq \frac{E|\widehat{g}_n - g(\theta)|^r}{\varepsilon^r} \]
  当\(n \to \infty\)时，右边分子趋向0，由夹逼准则，左边概率趋向0，满足依概率收敛定义。
方差+偏差判别：若\(\text{Var}[\widehat{g}_n] \to 0\)，且\(E[\widehat{g}_n] \to g(\theta)\)（渐近无偏），或\(E[\widehat{g}_n] = g(\theta)\)（无偏），则\(\widehat{g}_n\)是\(g(\theta)\)的相合估计。
- 证明：均方误差分解为：
  \[E\left( \widehat{g}_n - g(\theta) \right)^2 = \text{Var}(\widehat{g}_n) + \left( E\widehat{g}_n - g(\theta) \right)^2 \]
  已知\(\text{Var}(\widehat{g}_n) \to 0\)，偏差\(E\widehat{g}_n - g(\theta) \to 0\)，因此均方误差趋向0。由r=2时的矩判别法，直接得相合性。
- 特别地：无偏估计只要方差趋向0，就一定是相合估计，这是最常用的判别方法。
强相合判别：若\(\sum_{n=1}^{\infty} \text{Var}[\widehat{g}_n]\)收敛，且\(E[\widehat{g}_n] \to g(\theta)\)或\(E[\widehat{g}_n] = g(\theta)\)，则\(\widehat{g}_n\)是\(g(\theta)\)的强相合估计。
- 证明：由切比雪夫不等式，对任意\(\varepsilon>0\)，有
  \[P\left( |\widehat{g}_n - E\widehat{g}_n| \geq \frac{\varepsilon}{2} \right) \leq \frac{4\text{Var}(\widehat{g}_n)}{\varepsilon^2} \]
  因\(\sum_{n=1}^\infty \text{Var}(\widehat{g}_n)\)收敛，故\(\sum_{n=1}^\infty P\left( |\widehat{g}_n - E\widehat{g}_n| \geq \frac{\varepsilon}{2} \right) < \infty\)。
  由Borel-Cantelli引理，\(P(\text{无穷多个事件发生})=0\)，即\(\widehat{g}_n - E\widehat{g}_n \stackrel{\text{a.e.}}{\longrightarrow} 0\)。
  结合\(E\widehat{g}_n \to g(\theta)\)，得\(\widehat{g}_n \stackrel{\text{a.e.}}{\longrightarrow} g(\theta)\)，强相合性得证。

引理5.3.2 相合性的连续映射定理

若\(\widehat{g}_n\)是\(g(\theta)\)的相合（或强相合）估计，函数\(\varphi(y)\)在\(y=g(\theta)\)处连续，则\(\varphi(\widehat{g}_n)\)是\(\varphi(g(\theta))\)的相合（或强相合）估计。

证明：依概率收敛/几乎必然收敛的连续映射定理：若\(X_n \stackrel{P/\text{a.e.}}{\longrightarrow} a\)，\(\varphi\)在\(a\)处连续，则\(\varphi(X_n) \stackrel{P/\text{a.e.}}{\longrightarrow} \varphi(a)\)，直接套用得证。
核心意义：相合估计的连续函数，仍是对应真实值的相合估计，极大拓展了相合估计的构造范围。

2.3 典型例题的详细证明

例5.3.2 样本均值与样本方差的强相合性

设\(X_1,\dots,X_n\) i.i.d.，\(E(X_1)=a(\theta)\)，\(\text{Var}(X_1)=\sigma^2(\theta)\)，证明：

样本均值\(\overline{X} = \frac{1}{n}\sum_{i=1}^n X_i\)是\(a(\theta)\)的强相合估计；
样本方差\(S^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \overline{X})^2\)是\(\sigma^2(\theta)\)的强相合估计。

证明：

样本均值的强相合性
由独立同分布的强大数定律：i.i.d.序列若一阶矩存在，则\(\overline{X} \stackrel{\text{a.e.}}{\longrightarrow} E(X_1) = a(\theta)\)，直接满足强相合定义，得证。
样本方差的强相合性
先对\(S^2\)做恒等变形：

\[\sum_{i=1}^n (X_i - \overline{X})^2 = \sum_{i=1}^n X_i^2 - n\overline{X}^2 \]
两边除以n得：

\[S^2 = \frac{1}{n}\sum_{i=1}^n X_i^2 - \overline{X}^2 \]
- 对第一项：\(X_1^2,\dots,X_n^2\) i.i.d.，且\(E(X_1^2) = \sigma^2(\theta) + a^2(\theta)\)，由强大数定律：
  \[\frac{1}{n}\sum_{i=1}^n X_i^2 \stackrel{\text{a.e.}}{\longrightarrow} E(X_1^2) = \sigma^2(\theta) + a^2(\theta) \]
- 对第二项：由连续映射定理，\(\overline{X}^2 \stackrel{\text{a.e.}}{\longrightarrow} a^2(\theta)\)。
  结合两项极限：
\[S^2 \stackrel{\text{a.e.}}{\longrightarrow} [\sigma^2(\theta) + a^2(\theta)] - a^2(\theta) = \sigma^2(\theta) \]
因此\(S^2\)是\(\sigma^2(\theta)\)的强相合估计，得证。

例5.3.3 加权均值的相合性

设\(X_1,\dots,X_n\) i.i.d.，\(E(X_1)=\mu\)，\(\text{Var}(X_1)=\sigma^2 < \infty\)，证明\(\widehat{\mu} = \frac{2}{n(n+1)}\sum_{i=1}^n iX_i\)是\(\mu\)的相合估计。

证明：用引理5.3.1的方差+偏差判别法。

验证无偏性
由期望的线性性：

\[E\widehat{\mu} = \frac{2}{n(n+1)} \sum_{i=1}^n i E(X_i) = \frac{2\mu}{n(n+1)} \cdot \frac{n(n+1)}{2} = \mu \]
因此\(\widehat{\mu}\)是\(\mu\)的无偏估计。
验证方差趋向0
由独立性，方差满足\(\text{Var}(\sum a_i X_i) = \sum a_i^2 \text{Var}(X_i)\)：

\[\text{Var}(\widehat{\mu}) = \left( \frac{2}{n(n+1)} \right)^2 \sum_{i=1}^n i^2 \sigma^2 \]
代入平方和公式\(\sum_{i=1}^n i^2 = \frac{n(n+1)(2n+1)}{6}\)，化简得：

\[\text{Var}(\widehat{\mu}) = \frac{4\sigma^2}{n^2(n+1)^2} \cdot \frac{n(n+1)(2n+1)}{6} = \frac{2\sigma^2(2n+1)}{3n(n+1)} \]
当\(n \to \infty\)时，\(\text{Var}(\widehat{\mu}) \sim \frac{4\sigma^2}{3n} \to 0\)。
结论
无偏估计的方差趋向0，由引理5.3.1，\(\widehat{\mu} \stackrel{P}{\longrightarrow} \mu\)，是\(\mu\)的相合估计，得证。

例5.3.4 分层模型的相合性分析

设\(Y_{ij} = \mu + u_i + \xi_{ij}\)，\(i=1,\dots,n\)，\(j=1,\dots,m\)；\(E(u_i)=0\)，\(\text{Var}(u_i)=\sigma_u^2>0\)；\(E(\xi_{ij})=0\)，\(\text{Var}(\xi_{ij})=\sigma^2>0\)；所有\(u_i,\xi_{ij}\)相互独立。设\(\overline{Y} = \frac{1}{mn}\sum_{i=1}^n \sum_{j=1}^m Y_{ij}\)，证明：

\(n \to \infty\)、m固定时，\(\overline{Y}\)是\(\mu\)的相合估计；
\(m \to \infty\)、n固定时，\(\overline{Y}\)不是\(\mu\)的相合估计。

证明：
先对\(\overline{Y} - \mu\)做分解：

\[\overline{Y} = \mu + \frac{1}{n}\sum_{i=1}^n u_i + \frac{1}{mn}\sum_{i=1}^n \sum_{j=1}^m \xi_{ij} \]

记\(a_n = \frac{1}{n}\sum_{i=1}^n u_i\)，\(b_{mn} = \frac{1}{mn}\sum_{i,j} \xi_{ij}\)，则\(\overline{Y} - \mu = a_n + b_{mn}\)。
计算矩：\(E(a_n)=E(b_{mn})=0\)，\(\text{Var}(a_n)=\frac{\sigma_u^2}{n}\)，\(\text{Var}(b_{mn})=\frac{\sigma^2}{mn}\)。

n→∞、m固定时的相合性
- \(a_n\)：\(\text{Var}(a_n)=\frac{\sigma_u^2}{n} \to 0\)，无偏，故\(a_n \stackrel{P}{\longrightarrow} 0\)；
- \(b_{mn}\)：m固定，\(\text{Var}(b_{mn})=\frac{\sigma^2}{mn} \to 0\)，无偏，故\(b_{mn} \stackrel{P}{\longrightarrow} 0\)。
  由依概率收敛的可加性，\(\overline{Y} - \mu = a_n + b_{mn} \stackrel{P}{\longrightarrow} 0\)，即\(\overline{Y} \stackrel{P}{\longrightarrow} \mu\)，是相合估计。
m→∞、n固定时的非相合性
- \(b_{mn}\)：n固定，\(\text{Var}(b_{mn})=\frac{\sigma^2}{mn} \to 0\)，故\(b_{mn} \stackrel{P}{\longrightarrow} 0\)；
- \(a_n\)：n固定，\(\text{Var}(a_n)=\frac{\sigma_u^2}{n} > 0\)，是与m无关的非退化随机变量，不收敛到0。
  由Slutsky定理，\(\overline{Y} - \mu = a_n + b_{mn} \stackrel{L}{\longrightarrow} a_n\)，极限分布非退化，不可能依概率收敛到0，因此\(\overline{Y}\)不是\(\mu\)的相合估计。

三、渐近正态性

相合性仅保证估计量收敛到真实值，但无法刻画收敛速度和极限分布，无法支撑大样本统计推断。渐近正态性解决了这个问题，刻画了估计量的大样本分布。

3.1 核心定义

定义5.3.2 相合渐近正态（CAN）估计

设\(\widehat{g}_n\)是\(g(\theta)\)的估计量，若存在\(\nu(\theta) > 0\)，使得

\[Z_n = \sqrt{n}\left( \widehat{g}_n - g(\theta) \right) \stackrel{L}{\longrightarrow} Z \sim N(0, \nu(\theta)) \]

则称\(\widehat{g}_n\)是渐近正态的，也称\(g(\theta)\)的相合渐近正态（CAN）估计。

依分布收敛\(\stackrel{L}{\longrightarrow}\)的含义：对任意实数x，有
\[\lim_{n \to \infty} P_\theta\left( Z_n \leq x \right) = \Phi\left( \frac{x}{\sqrt{\nu(\theta)}} \right) \]
其中\(\Phi(\cdot)\)是标准正态分布的分布函数。

定义的核心要点

\(\sqrt{n}\)的意义：相合估计满足\(\widehat{g}_n - g(\theta) \stackrel{P}{\longrightarrow} 0\)，直接取极限是退化的0；乘\(\sqrt{n}\)后将其“放大”，得到非退化的正态分布，刻画了收敛速度：\(\widehat{g}_n - g(\theta) = O_p(n^{-1/2})\)，即与\(1/\sqrt{n}\)同阶。
CAN估计必为相合估计：\(\sqrt{n}(\widehat{g}_n - g(\theta))\)依概率有界，故\(\widehat{g}_n - g(\theta) = O_p(n^{-1/2}) \stackrel{P}{\longrightarrow} 0\)，满足相合性。
渐近方差：\(\nu(\theta)\)称为\(\sqrt{n}\widehat{g}_n\)的渐近方差，\(\nu(\theta)\)越小，估计量的渐近精度越高；CAN估计的方差阶为\(n^{-1}\)，即\(\text{Var}(\widehat{g}_n) \approx \frac{\nu(\theta)}{n}\)。

3.2 渐近正态性的核心引理

核心工具：中心极限定理（CLT）

对i.i.d.样本，若\(E(X_1)=\mu\)，\(\text{Var}(X_1)=\sigma^2 < \infty\)，则

\[\sqrt{n}(\overline{X} - \mu) \stackrel{L}{\longrightarrow} N(0, \sigma^2) \]

样本均值天然是总体均值的CAN估计，是构造所有CAN估计的基础。

引理5.3.3 Delta方法（渐近正态性的连续映射定理）

若\(\widehat{g}_n\)是\(g(\theta)\)的CAN估计，即\(\sqrt{n}(\widehat{g}_n - g(\theta)) \stackrel{L}{\longrightarrow} N(0, \nu(\theta))\)；函数\(\varphi(y)\)在\(y=g(\theta)\)处可导，且\(\varphi'(g(\theta)) \neq 0\)，则\(\varphi(\widehat{g}_n)\)是\(\varphi(g(\theta))\)的CAN估计，且

\[\sqrt{n}\left( \varphi(\widehat{g}_n) - \varphi(g(\theta)) \right) \stackrel{L}{\longrightarrow} N\left( 0, \left[ \varphi'(g(\theta)) \right]^2 \nu(\theta) \right) \]

证明：
由\(\varphi\)在\(g(\theta)\)处可导，做泰勒展开：

\[\varphi(\widehat{g}_n) - \varphi(g(\theta)) = \varphi'(g(\theta))(\widehat{g}_n - g(\theta)) + o(|\widehat{g}_n - g(\theta)|) \]

两边乘\(\sqrt{n}\)得：

\[\sqrt{n}\left( \varphi(\widehat{g}_n) - \varphi(g(\theta)) \right) = \varphi'(g(\theta)) \cdot \sqrt{n}(\widehat{g}_n - g(\theta)) + \sqrt{n} \cdot o(|\widehat{g}_n - g(\theta)|) \]

第一项：\(\sqrt{n}(\widehat{g}_n - g(\theta)) \stackrel{L}{\longrightarrow} N(0, \nu(\theta))\)，故第一项依分布收敛到\(\varphi'(g(\theta)) \cdot N(0, \nu(\theta)) = N(0, [\varphi'(g(\theta))]^2 \nu(\theta))\)；
第二项：\(\widehat{g}_n - g(\theta) = O_p(n^{-1/2})\)，故\(o(|\widehat{g}_n - g(\theta)|) = o_p(n^{-1/2})\)，因此\(\sqrt{n} \cdot o_p(n^{-1/2}) = o_p(1) \stackrel{P}{\longrightarrow} 0\)。

由Slutsky定理，两项相加的极限分布等于第一项的极限分布，得证。

核心意义：只要得到一个参数的CAN估计，其任意可导函数的CAN估计可直接通过代入得到，同时可算出渐近方差，是大样本统计最常用的工具。

3.3 典型例题的详细证明

例5.3.7 样本均值与样本方差的渐近正态性

设\(X_1,\dots,X_n\) i.i.d.，\(E(X_1)=\mu\)，\(\text{Var}(X_1)=\sigma^2\)，\(\text{Var}(X_1^2)=\tau^2\)，\(S^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \overline{X})^2\)，证明：

\(\overline{X}\)是\(\mu\)的CAN估计，且\(\sqrt{n}\frac{\overline{X} - \mu}{S} \stackrel{L}{\longrightarrow} N(0,1)\)；
\(S^2\)是\(\sigma^2\)的CAN估计，且\(\sqrt{n}(S^2 - \sigma^2) \stackrel{L}{\longrightarrow} N(0, \tau^2)\)。

证明：

样本均值的CAN估计与标准化渐近正态性
- 由独立同分布中心极限定理，直接得：
  \[\frac{\sqrt{n}(\overline{X} - \mu)}{\sigma} \stackrel{L}{\longrightarrow} N(0,1) \]
  两边乘\(\sigma\)得\(\sqrt{n}(\overline{X} - \mu) \stackrel{L}{\longrightarrow} N(0, \sigma^2)\)，满足CAN估计定义，故\(\overline{X}\)是\(\mu\)的CAN估计。
- 对标准化统计量做变形：
  \[\sqrt{n}\frac{\overline{X} - \mu}{S} = \sqrt{n}\frac{\overline{X} - \mu}{\sigma} \cdot \frac{\sigma}{S} \]
  已知第一项\(\stackrel{L}{\longrightarrow} N(0,1)\)；由例5.3.2，\(S^2 \stackrel{P}{\longrightarrow} \sigma^2\)，故\(S \stackrel{P}{\longrightarrow} \sigma\)，因此第二项\(\frac{\sigma}{S} \stackrel{P}{\longrightarrow} 1\)。
  由Slutsky定理，乘积的极限分布等于第一项的极限分布，即\(\sqrt{n}\frac{\overline{X} - \mu}{S} \stackrel{L}{\longrightarrow} N(0,1)\)，得证。
样本方差的CAN估计
利用\(S^2\)的恒等变形：

\[S^2 = \frac{1}{n}\sum_{i=1}^n X_i^2 - \overline{X}^2 \]
因此：

\[\sqrt{n}(S^2 - \sigma^2) = \sqrt{n}\left( \frac{1}{n}\sum_{i=1}^n X_i^2 - \sigma^2 \right) - \sqrt{n} \cdot \overline{X}^2 \]
- \(S^2\)具有平移不变性，不妨设\(\mu=0\)，此时\(E(X_1^2)=\sigma^2\)，\(\text{Var}(X_1^2)=\tau^2\)。由中心极限定理，第一项：
  \[\sqrt{n}\left( \frac{1}{n}\sum_{i=1}^n X_i^2 - \sigma^2 \right) \stackrel{L}{\longrightarrow} N(0, \tau^2) \]
- 第二项变形为\(\sqrt{n} \cdot \overline{X}^2 = \frac{1}{\sqrt{n}} \cdot (\sqrt{n}\overline{X})^2\)。\(\sqrt{n}\overline{X} \stackrel{L}{\longrightarrow} N(0, \sigma^2)\)，故\((\sqrt{n}\overline{X})^2 = O_p(1)\)，因此第二项\(\stackrel{P}{\longrightarrow} 0\)。
  由Slutsky定理，\(\sqrt{n}(S^2 - \sigma^2) \stackrel{L}{\longrightarrow} N(0, \tau^2)\)，满足CAN估计定义，得证。

例5.3.8 泊松分布参数函数的CAN估计

设\(X_1,\dots,X_n\) i.i.d.，\(X_1 \sim P(\lambda)\)，求\(e^{-\lambda}\)的CAN估计。

解：

先构造\(\lambda\)的CAN估计
泊松分布满足\(E(X_1)=\text{Var}(X_1)=\lambda\)，由中心极限定理：

\[\sqrt{n}(\overline{X} - \lambda) \stackrel{L}{\longrightarrow} N(0, \lambda) \]
因此\(\overline{X}\)是\(\lambda\)的CAN估计，渐近方差\(\nu(\lambda)=\lambda\)。
用Delta方法构造\(e^{-\lambda}\)的CAN估计
令\(\varphi(\lambda)=e^{-\lambda}\)，则\(\varphi'(\lambda)=-e^{-\lambda} \neq 0\)，满足Delta方法条件。
因此\(\varphi(\overline{X})=e^{-\overline{X}}\)是\(e^{-\lambda}\)的CAN估计，渐近方差为：

\[[\varphi'(\lambda)]^2 \cdot \nu(\lambda) = \lambda e^{-2\lambda} \]
即：

\[\sqrt{n}(e^{-\overline{X}} - e^{-\lambda}) \stackrel{L}{\longrightarrow} N(0, \lambda e^{-2\lambda}) \]
补充：\(e^{-\lambda}\)的UMVUE\(\widehat{g}_n = \left(1-\frac{1}{n}\right)^{\sum_{i=1}^n X_i}\)也是CAN估计，且与\(e^{-\overline{X}}\)有相同的渐近方差（证明见附录）。

四、最优渐近正态（BAN）估计简介

CAN估计的渐近方差越小，渐近精度越高，而正则分布族中，估计量的渐近方差存在理论下界——C-R下界。

对正则分布族，\(g(\theta)\)的无偏估计的方差满足C-R不等式：

\[\text{Var}(\widehat{g}_n) \geq \frac{[g'(\theta)]^2}{nI(\theta)} \]

其中\(I(\theta)\)是单个样本的Fisher信息。

对应到CAN估计，渐近方差的下界为\([g'(\theta)]^2 I^{-1}(\theta)\)。若CAN估计的渐近方差达到该下界，则称其为最优渐近正态（BAN）估计，是大样本意义下的最优估计。

注：极大似然估计（MLE）在正则条件下是BAN估计，这是MLE被广泛使用的核心原因之一。

五、核心知识点归纳总结

核心概念	定义与表达式	核心判别方法	关键性质	核心工具/定理
弱相合估计	对\(\forall \theta \in \Theta\)，\(\widehat{g}_n \stackrel{P_\theta}{\longrightarrow} g(\theta)\)，即\(\lim_{n \to \infty} P(\|\widehat{g}_n - g(\theta)\| \geq \varepsilon)=0\)	1. \(E\|\widehat{g}_n - g(\theta)\|^r \to 0\)（r>0） 2. 无偏/渐近无偏 + 方差→0 3. 依概率收敛定义	1. 估计量的大样本基本要求，n足够大时估计量靠近真实值 2. 连续函数保持相合性 3. 强相合可推出弱相合，反之不成立	马尔可夫/切比雪夫不等式、弱大数定律、Slutsky定理
强相合估计	对\(\forall \theta \in \Theta\)，\(\widehat{g}_n \stackrel{\text{a.e. } P_\theta}{\longrightarrow} g(\theta)\)，即\(P(\lim_{n \to \infty} \widehat{g}_n = g(\theta))=1\)	1. 无偏/渐近无偏 + \(\sum_{n=1}^\infty \text{Var}(\widehat{g}_n)\)收敛 2. 强大数定律 3. 几乎必然收敛定义	1. 比弱相合要求更严格，以概率1收敛到真实值 2. 连续函数保持强相合性	强大数定律、Borel-Cantelli引理
CAN估计	存在\(\nu(\theta)>0\)，使得\(\sqrt{n}(\widehat{g}_n - g(\theta)) \stackrel{L}{\longrightarrow} N(0, \nu(\theta))\)	1. 中心极限定理（样本均值） 2. Delta方法（参数函数）	1. CAN估计必为相合估计，反之不成立 2. 收敛速度为\(O_p(n^{-1/2})\) 3. 渐近方差越小，渐近精度越高 4. 可导函数保持渐近正态性	中心极限定理、Slutsky定理、泰勒展开（Delta方法）
BAN估计	渐近方差达到C-R下界的CAN估计，即\(\nu(\theta)=[g'(\theta)]^2 I^{-1}(\theta)\)	验证渐近方差等于C-R下界	大样本意义下的最优估计，渐近精度达到理论下界	C-R不等式、Fisher信息

最优渐近正态（BAN）估计详细讲解与完整推导

一、BAN估计的核心定义与本质

1.1 定义拆解

定义5.3.3（最优渐近正态BAN估计）
设总体\(X \sim \{f(x,\theta), \theta \in \Theta\}\)，\(n\)个样本的Fisher信息矩阵为\(I(\theta)\)，单个样本的Fisher信息矩阵为\(i(\theta)\)，满足

\[\lim_{n \to +\infty} \frac{I(\theta)}{n} = i(\theta) \]

若待估函数\(g(\theta)\)的估计量\(\widehat{g}_n(X)\)满足

\[\sqrt{n}\left\{ \widehat{g}_n(X_1,\dots,X_n) - g(\theta) \right\} \stackrel{L}{\longrightarrow} N\left( 0, G(\theta)i^{-1}(\theta)G^\text{T}(\theta) \right) \]

其中\(G(\theta) = \frac{\partial g(\theta)}{\partial \theta^\text{T}}\)（\(g(\theta)\)对参数\(\theta\)的梯度/雅可比矩阵），则称\(\widehat{g}_n(X)\)为\(g(\theta)\)的最优渐近正态（Best Asymptotic Normal, BAN）估计。

单参数简化形式

若\(\theta\)和\(g(\theta)\)均为单参数，\(G(\theta)=g'(\theta)\)，定义简化为：

\[\sqrt{n}\left\{ \widehat{g}_n - g(\theta) \right\} \stackrel{L}{\longrightarrow} N\left( 0, [g'(\theta)]^2 i^{-1}(\theta) \right) \]

i.i.d.样本的特殊性质

若\(X_1,\dots,X_n\)独立同分布，则n个样本的Fisher信息 = n×单个样本的Fisher信息，即\(I(\theta) = n \cdot i(\theta)\)，天然满足\(\frac{I(\theta)}{n}=i(\theta)\)，这是绝大多数例题的前提。

1.2 BAN估计的核心本质

BAN估计是大样本意义下的最优估计，核心要求有两点：

首先必须是CAN估计（相合渐近正态估计）：估计量满足渐近正态性，且天然具有相合性；
其次渐近方差达到C-R下界的渐近形式：C-R下界是无偏估计方差的理论最小值，BAN估计的渐近方差恰好达到这个下界，是大样本下精度最高的估计。

二、例题完整推导与证明

例5.3.9 正态分布下\(\overline{X}^2\)是\(\mu^2\)的BAN估计

设\(X_1,\dots,X_n\)独立同分布，\(X_1 \sim N(\mu, \sigma^2)\)，证明\(\overline{X}^2\)为\(\mu^2\)的BAN估计。

完整证明步骤

计算单个样本的Fisher信息\(i(\mu)\)
正态分布的概率密度为：

\[f(x;\mu) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma^2} \right\} \]
取对数得对数似然：

\[\ln f(x;\mu) = -\frac{1}{2}\ln(2\pi\sigma^2) - \frac{(x-\mu)^2}{2\sigma^2} \]
对\(\mu\)求二阶偏导：

\[\frac{\partial^2 \ln f}{\partial \mu^2} = -\frac{1}{\sigma^2} \]
单个样本的Fisher信息为：

\[i(\mu) = -E\left[ \frac{\partial^2 \ln f}{\partial \mu^2} \right] = -E\left[ -\frac{1}{\sigma^2} \right] = \frac{1}{\sigma^2} \]
计算待估函数的导数
待估函数\(g(\mu)=\mu^2\)，一阶导数为：

\[g'(\mu) = 2\mu \]
计算C-R下界对应的渐近方差
单参数BAN估计的理论最小渐近方差为：

\[[g'(\mu)]^2 i^{-1}(\mu) = (2\mu)^2 \cdot \sigma^2 = 4\mu^2\sigma^2 \]
推导估计量\(\overline{X}^2\)的渐近正态性
由独立同分布的中心极限定理，样本均值满足：

\[\sqrt{n}(\overline{X} - \mu) \stackrel{L}{\longrightarrow} N(0, \sigma^2) \]
即\(\overline{X}\)是\(\mu\)的CAN估计。
由Delta方法（可导函数保持渐近正态性），\(g(\mu)=\mu^2\)在\(\mu\)处可导且\(g'(\mu)\neq0\)，因此：

\[\sqrt{n}(\overline{X}^2 - \mu^2) \stackrel{L}{\longrightarrow} N\left( 0, [g'(\mu)]^2 \cdot \sigma^2 \right) = N(0, 4\mu^2\sigma^2) \]
验证BAN估计
估计量\(\overline{X}^2\)的渐近方差恰好等于C-R下界对应的理论最小渐近方差，因此\(\overline{X}^2\)是\(\mu^2\)的BAN估计，得证。

例5.3.10 泊松分布下\(\left(1-\frac{1}{n}\right)^T\)是\(e^{-\lambda}\)的BAN估计

设\(X_1,\dots,X_n\)独立同分布，\(X_1 \sim P(\lambda)\)，证明\(\widehat{g}_n(X) = \left(1-\frac{1}{n}\right)^T\)（\(T=\sum_{i=1}^n X_i\)）为\(g(\lambda)=e^{-\lambda}\)的BAN估计。

完整证明步骤

计算单个样本的Fisher信息\(i(\lambda)\)
泊松分布的概率质量函数为：

\[P(X=x) = \frac{\lambda^x e^{-\lambda}}{x!}, \quad x=0,1,2,\dots \]
取对数得对数似然：

\[\ln f(x;\lambda) = x\ln\lambda - \lambda - \ln(x!) \]
对\(\lambda\)求二阶偏导：

\[\frac{\partial^2 \ln f}{\partial \lambda^2} = -\frac{x}{\lambda^2} \]
单个样本的Fisher信息为：

\[i(\lambda) = -E\left[ \frac{\partial^2 \ln f}{\partial \lambda^2} \right] = -E\left[ -\frac{X}{\lambda^2} \right] = \frac{E[X]}{\lambda^2} = \frac{\lambda}{\lambda^2} = \frac{1}{\lambda} \]
计算待估函数的导数
待估函数\(g(\lambda)=e^{-\lambda}\)，一阶导数为：

\[g'(\lambda) = -e^{-\lambda} \]
计算C-R下界对应的渐近方差
理论最小渐近方差为：

\[[g'(\lambda)]^2 i^{-1}(\lambda) = (-e^{-\lambda})^2 \cdot \lambda = \lambda e^{-2\lambda} \]
推导估计量\(\widehat{g}_n\)的渐近正态性
首先，由中心极限定理，\(\sqrt{n}(\overline{X} - \lambda) \stackrel{L}{\longrightarrow} N(0, \lambda)\)，结合Delta方法得：

\[\sqrt{n}(e^{-\overline{X}} - e^{-\lambda}) \stackrel{L}{\longrightarrow} N(0, \lambda e^{-2\lambda}) \]
对估计量做变形：\(T = \sum_{i=1}^n X_i = n\overline{X}\)，因此\(\widehat{g}_n = \left(1-\frac{1}{n}\right)^{n\overline{X}}\)。
对\(\ln(1-\frac{1}{n})\)做泰勒展开：\(\ln(1-\frac{1}{n}) = -\frac{1}{n} - \frac{1}{2n^2} + o\left(\frac{1}{n^2}\right)\)，因此：

\[n\ln\left(1-\frac{1}{n}\right) = -1 - \frac{1}{2n} + o\left(\frac{1}{n}\right) \]
代入估计量得：

\[\widehat{g}_n = \exp\left\{ n\overline{X} \ln\left(1-\frac{1}{n}\right) \right\} = e^{-\overline{X}} \cdot \exp\left\{ -\frac{\overline{X}}{2n} + o\left(\frac{1}{n}\right) \right\} \]
对指数项泰勒展开：\(\exp\left\{ -\frac{\overline{X}}{2n} + o\left(\frac{1}{n}\right) \right\} = 1 - \frac{\overline{X}}{2n} + o\left(\frac{1}{n}\right)\)，因此：

\[\widehat{g}_n - e^{-\overline{X}} = e^{-\overline{X}} \cdot \left( -\frac{\overline{X}}{2n} + o\left(\frac{1}{n}\right) \right) \]
两边乘\(\sqrt{n}\)得：

\[\sqrt{n}(\widehat{g}_n - e^{-\overline{X}}) = e^{-\overline{X}} \cdot \left( -\frac{\overline{X}}{2\sqrt{n}} + o\left(\frac{1}{\sqrt{n}}\right) \right) \stackrel{P}{\longrightarrow} 0 \]
分解目标项：

\[\sqrt{n}(\widehat{g}_n - e^{-\lambda}) = \sqrt{n}(e^{-\overline{X}} - e^{-\lambda}) + \sqrt{n}(\widehat{g}_n - e^{-\overline{X}}) \]
第一项依分布收敛到\(N(0, \lambda e^{-2\lambda})\)，第二项依概率收敛到0，由Slutsky定理得：

\[\sqrt{n}(\widehat{g}_n - e^{-\lambda}) \stackrel{L}{\longrightarrow} N(0, \lambda e^{-2\lambda}) \]
验证BAN估计
估计量的渐近方差恰好等于C-R下界，因此\(\left(1-\frac{1}{n}\right)^T\)是\(e^{-\lambda}\)的BAN估计，得证。

例5.3.11 伯努利分布下\(\overline{X}(1-\overline{X})\)是\(\text{Var}(X_1)\)的BAN估计

设\(X_1,\dots,X_n\)独立同分布，\(X_1 \sim b(1, \theta)\)，\(0<\theta<1\)，证明\(\varphi(\overline{X})=\overline{X}(1-\overline{X})\)为\(\sigma^2=\text{Var}(X_1)=\theta(1-\theta)\)的BAN估计（\(\theta \neq 1/2\)）。

完整证明步骤

计算单个样本的Fisher信息\(i(\theta)\)
伯努利分布的概率质量函数为：

\[P(X=x) = \theta^x (1-\theta)^{1-x}, \quad x=0,1 \]
取对数得对数似然：

\[\ln f(x;\theta) = x\ln\theta + (1-x)\ln(1-\theta) \]
对\(\theta\)求二阶偏导：

\[\frac{\partial^2 \ln f}{\partial \theta^2} = -\frac{x}{\theta^2} - \frac{1-x}{(1-\theta)^2} \]
单个样本的Fisher信息为：

\[i(\theta) = -E\left[ \frac{\partial^2 \ln f}{\partial \theta^2} \right] = \frac{E[X]}{\theta^2} + \frac{E[1-X]}{(1-\theta)^2} = \frac{\theta}{\theta^2} + \frac{1-\theta}{(1-\theta)^2} = \frac{1}{\theta(1-\theta)} \]
计算待估函数的导数
待估函数\(g(\theta)=\theta(1-\theta)=\theta-\theta^2\)，一阶导数为：

\[g'(\theta) = 1-2\theta \]
当\(\theta \neq 1/2\)时，\(g'(\theta) \neq 0\)，满足Delta方法的条件。
计算C-R下界对应的渐近方差
理论最小渐近方差为：

\[[g'(\theta)]^2 i^{-1}(\theta) = (1-2\theta)^2 \cdot \theta(1-\theta) \]
推导估计量\(\varphi(\overline{X})\)的渐近正态性
由中心极限定理，样本均值满足：

\[\sqrt{n}(\overline{X} - \theta) \stackrel{L}{\longrightarrow} N(0, \theta(1-\theta)) \]
即\(\overline{X}\)是\(\theta\)的CAN估计。
由Delta方法，\(g(\theta)=\theta(1-\theta)\)在\(\theta\)处可导且\(g'(\theta)\neq0\)，因此：

\[\sqrt{n}\left( \overline{X}(1-\overline{X}) - \theta(1-\theta) \right) \stackrel{L}{\longrightarrow} N\left( 0, (1-2\theta)^2 \theta(1-\theta) \right) \]
验证BAN估计
估计量的渐近方差恰好等于C-R下界，因此\(\overline{X}(1-\overline{X})\)是\(\sigma^2=\theta(1-\theta)\)的BAN估计（\(\theta \neq 1/2\)），得证。

特殊情况：\(\theta=1/2\)的补充说明

当\(\theta=1/2\)时，\(g'(\theta)=1-2\times(1/2)=0\)，一阶Delta方法失效，需用二阶泰勒展开：

\[g(\overline{X}) - g(1/2) = \frac{1}{2}g''(1/2)(\overline{X}-1/2)^2 + o\left( (\overline{X}-1/2)^2 \right) = -(\overline{X}-1/2)^2 + o\left( (\overline{X}-1/2)^2 \right) \]

两边乘\(n\)得：

\[n\left( \varphi(\overline{X}) - 1/4 \right) = -\left( \sqrt{n}(\overline{X}-1/2) \right)^2 + o(1) \]

已知\(\sqrt{n}(\overline{X}-1/2) \stackrel{L}{\longrightarrow} N(0, 1/4)\)，因此\(\left( 2\sqrt{n}(\overline{X}-1/2) \right)^2 \stackrel{L}{\longrightarrow} \chi^2(1)\)，最终得：

\[-4n\left( \varphi(\overline{X}) - 1/4 \right) \stackrel{L}{\longrightarrow} \chi^2(1) \]

此时极限分布不再是正态分布，因此\(\varphi(\overline{X})\)不是CAN估计，自然也不是BAN估计。

三、核心知识点汇总表

核心概念	核心要求	关键公式	核心性质
BAN估计	1. 是CAN估计（渐近正态+相合） 2. 渐近方差达到C-R下界	单参数：\(\sqrt{n}(\widehat{g}_n - g(\theta)) \stackrel{L}{\longrightarrow} N(0, [g'(\theta)]^2 i^{-1}(\theta))\)	大样本意义下的最优估计，渐近精度达到理论下界
Fisher信息（单样本）	衡量分布包含的参数信息量	\(i(\theta) = -E\left[ \frac{\partial^2 \ln f(x;\theta)}{\partial \theta^2} \right]\)	i.i.d.样本下，n个样本的Fisher信息\(I(\theta)=n\cdot i(\theta)\)
Delta方法	函数在真实值处可导，且一阶导数非0	\(\sqrt{n}(\varphi(\widehat{\theta}_n)-\varphi(\theta)) \stackrel{L}{\longrightarrow} N(0, [\varphi'(\theta)]^2 \nu(\theta))\)	保持渐近正态性，可直接计算参数函数的渐近方差
Slutsky定理	一项依分布收敛，另一项依概率收敛到常数	若\(X_n \stackrel{L}{\longrightarrow} X\)，\(Y_n \stackrel{P}{\longrightarrow} c\)，则\(X_n+Y_n \stackrel{L}{\longrightarrow} X+c\)，\(X_n Y_n \stackrel{L}{\longrightarrow} cX\)	处理渐近正态性推导中的余项，是大样本分析的核心工具

posted on 2026-02-25 08:37 Indian_Mysore 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

昆仑山:眼中无形心中有穴之穴人合一

5.3.2估计量的相合性与渐近正态性

估计量的相合性与渐近正态性 详细讲解与推导

一、引言

二、相合性（一致性）

2.1 核心定义

定义1 弱相合估计（简称相合估计）

定义2 强相合估计

收敛关系

2.2 相合性的核心判别引理

引理5.3.1 矩判别法

引理5.3.2 相合性的连续映射定理

2.3 典型例题的详细证明

例5.3.2 样本均值与样本方差的强相合性

例5.3.3 加权均值的相合性

例5.3.4 分层模型的相合性分析

三、渐近正态性

3.1 核心定义

定义5.3.2 相合渐近正态（CAN）估计

定义的核心要点

3.2 渐近正态性的核心引理

核心工具：中心极限定理（CLT）

引理5.3.3 Delta方法（渐近正态性的连续映射定理）

3.3 典型例题的详细证明

例5.3.7 样本均值与样本方差的渐近正态性

例5.3.8 泊松分布参数函数的CAN估计

四、最优渐近正态（BAN）估计简介

五、核心知识点归纳总结

最优渐近正态（BAN）估计 详细讲解与完整推导

一、BAN估计的核心定义与本质

1.1 定义拆解

单参数简化形式

i.i.d.样本的特殊性质

1.2 BAN估计的核心本质

二、例题完整推导与证明

例5.3.9 正态分布下\(\overline{X}^2\)是\(\mu^2\)的BAN估计

完整证明步骤

例5.3.10 泊松分布下\(\left(1-\frac{1}{n}\right)^T\)是\(e^{-\lambda}\)的BAN估计

完整证明步骤

例5.3.11 伯努利分布下\(\overline{X}(1-\overline{X})\)是\(\text{Var}(X_1)\)的BAN估计

完整证明步骤

特殊情况：\(\theta=1/2\)的补充说明

三、核心知识点汇总表

导航

公告

估计量的相合性与渐近正态性详细讲解与推导

最优渐近正态（BAN）估计详细讲解与完整推导