昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

5.3.2估计量的相合性与渐近正态性

估计量的相合性与渐近正态性 详细讲解与推导

一、引言

参数估计的核心是用样本构造的统计量去估计总体的未知参数。我们不仅关心估计量在有限样本下的性质(无偏性、有效性),更关心样本量n趋向无穷时的大样本性质:当样本量越来越大时,估计量能否无限靠近真实值?它的极限分布是什么?
本章的相合性回答了第一个问题,是估计量最基本的大样本要求;渐近正态性回答了第二个问题,是大样本统计推断(区间估计、假设检验)的核心理论基础。


二、相合性(一致性)

2.1 核心定义

设总体\(X \sim f(x,\theta)\)\(\theta \in \Theta\)为待估参数,\(\Theta\)为参数空间;\(X_1,X_2,\dots,X_n\)是来自\(X\)的独立同分布(i.i.d.)样本,\(\widehat{g}_n = \widehat{g}(X_1,\dots,X_n)\)是待估函数\(g(\theta)\)的估计量。

定义1 弱相合估计(简称相合估计)

\(n \to +\infty\)时,若对所有\(\theta \in \Theta\),都有

\[\widehat{g}(X_1,\dots,X_n) \stackrel{P_\theta}{\longrightarrow} g(\theta) \]

则称\(\widehat{g}\)\(g(\theta)\)弱相合估计

  • 依概率收敛\(\stackrel{P_\theta}{\longrightarrow}\)的含义:对任意\(\varepsilon>0\),有

    \[\lim_{n \to \infty} P_\theta\left( \left| \widehat{g}_n - g(\theta) \right| \geq \varepsilon \right) = 0 \]

    通俗解释:样本量n越大,估计量与真实值的偏差超过任意小正数的概率趋近于0,n足够大时估计量“几乎”等于真实值。

定义2 强相合估计

\(n \to +\infty\)时,若对所有\(\theta \in \Theta\),都有

\[\widehat{g}(X_1,\dots,X_n) \stackrel{\text{a.e. } P_\theta}{\longrightarrow} g(\theta) \]

则称\(\widehat{g}\)\(g(\theta)\)强相合估计

  • 几乎必然收敛(以概率1收敛)\(\stackrel{\text{a.e. } P_\theta}{\longrightarrow}\)的含义:

    \[P_\theta\left( \lim_{n \to \infty} \widehat{g}_n = g(\theta) \right) = 1 \]

    通俗解释:当n趋向无穷时,估计量序列以概率1收敛到真实值,要求比弱相合更严格。

收敛关系

强相合\(\implies\)弱相合,反之不成立(几乎必然收敛可推出依概率收敛,反之不然)。


2.2 相合性的核心判别引理

直接用定义验证相合性非常繁琐,以下3个引理是判断相合性的核心工具。

引理5.3.1 矩判别法

  1. r阶矩收敛判别:若\(n \to \infty\)时,\(E\left| \widehat{g}_n - g(\theta) \right|^r \to 0\)\(r>0\),常用r=1或r=2),则\(\widehat{g}_n\)\(g(\theta)\)的相合估计。

    • 证明:由马尔可夫不等式,对任意\(\varepsilon>0\),有

      \[0 \leq P\left( |\widehat{g}_n - g(\theta)| \geq \varepsilon \right) \leq \frac{E|\widehat{g}_n - g(\theta)|^r}{\varepsilon^r} \]

      \(n \to \infty\)时,右边分子趋向0,由夹逼准则,左边概率趋向0,满足依概率收敛定义。
  2. 方差+偏差判别:若\(\text{Var}[\widehat{g}_n] \to 0\),且\(E[\widehat{g}_n] \to g(\theta)\)(渐近无偏),或\(E[\widehat{g}_n] = g(\theta)\)(无偏),则\(\widehat{g}_n\)\(g(\theta)\)的相合估计。

    • 证明:均方误差分解为:

      \[E\left( \widehat{g}_n - g(\theta) \right)^2 = \text{Var}(\widehat{g}_n) + \left( E\widehat{g}_n - g(\theta) \right)^2 \]

      已知\(\text{Var}(\widehat{g}_n) \to 0\),偏差\(E\widehat{g}_n - g(\theta) \to 0\),因此均方误差趋向0。由r=2时的矩判别法,直接得相合性。
    • 特别地:无偏估计只要方差趋向0,就一定是相合估计,这是最常用的判别方法。
  3. 强相合判别:若\(\sum_{n=1}^{\infty} \text{Var}[\widehat{g}_n]\)收敛,且\(E[\widehat{g}_n] \to g(\theta)\)\(E[\widehat{g}_n] = g(\theta)\),则\(\widehat{g}_n\)\(g(\theta)\)的强相合估计。

    • 证明:由切比雪夫不等式,对任意\(\varepsilon>0\),有

      \[P\left( |\widehat{g}_n - E\widehat{g}_n| \geq \frac{\varepsilon}{2} \right) \leq \frac{4\text{Var}(\widehat{g}_n)}{\varepsilon^2} \]

      \(\sum_{n=1}^\infty \text{Var}(\widehat{g}_n)\)收敛,故\(\sum_{n=1}^\infty P\left( |\widehat{g}_n - E\widehat{g}_n| \geq \frac{\varepsilon}{2} \right) < \infty\)
      由Borel-Cantelli引理,\(P(\text{无穷多个事件发生})=0\),即\(\widehat{g}_n - E\widehat{g}_n \stackrel{\text{a.e.}}{\longrightarrow} 0\)
      结合\(E\widehat{g}_n \to g(\theta)\),得\(\widehat{g}_n \stackrel{\text{a.e.}}{\longrightarrow} g(\theta)\),强相合性得证。

引理5.3.2 相合性的连续映射定理

\(\widehat{g}_n\)\(g(\theta)\)的相合(或强相合)估计,函数\(\varphi(y)\)\(y=g(\theta)\)处连续,则\(\varphi(\widehat{g}_n)\)\(\varphi(g(\theta))\)的相合(或强相合)估计。

  • 证明:依概率收敛/几乎必然收敛的连续映射定理:若\(X_n \stackrel{P/\text{a.e.}}{\longrightarrow} a\)\(\varphi\)\(a\)处连续,则\(\varphi(X_n) \stackrel{P/\text{a.e.}}{\longrightarrow} \varphi(a)\),直接套用得证。
  • 核心意义:相合估计的连续函数,仍是对应真实值的相合估计,极大拓展了相合估计的构造范围。

2.3 典型例题的详细证明

例5.3.2 样本均值与样本方差的强相合性

\(X_1,\dots,X_n\) i.i.d.,\(E(X_1)=a(\theta)\)\(\text{Var}(X_1)=\sigma^2(\theta)\),证明:

  1. 样本均值\(\overline{X} = \frac{1}{n}\sum_{i=1}^n X_i\)\(a(\theta)\)的强相合估计;
  2. 样本方差\(S^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \overline{X})^2\)\(\sigma^2(\theta)\)的强相合估计。

证明

  1. 样本均值的强相合性
    独立同分布的强大数定律:i.i.d.序列若一阶矩存在,则\(\overline{X} \stackrel{\text{a.e.}}{\longrightarrow} E(X_1) = a(\theta)\),直接满足强相合定义,得证。

  2. 样本方差的强相合性
    先对\(S^2\)做恒等变形:

    \[\sum_{i=1}^n (X_i - \overline{X})^2 = \sum_{i=1}^n X_i^2 - n\overline{X}^2 \]

    两边除以n得:

    \[S^2 = \frac{1}{n}\sum_{i=1}^n X_i^2 - \overline{X}^2 \]

    • 对第一项:\(X_1^2,\dots,X_n^2\) i.i.d.,且\(E(X_1^2) = \sigma^2(\theta) + a^2(\theta)\),由强大数定律:

      \[\frac{1}{n}\sum_{i=1}^n X_i^2 \stackrel{\text{a.e.}}{\longrightarrow} E(X_1^2) = \sigma^2(\theta) + a^2(\theta) \]

    • 对第二项:由连续映射定理,\(\overline{X}^2 \stackrel{\text{a.e.}}{\longrightarrow} a^2(\theta)\)
      结合两项极限:

    \[S^2 \stackrel{\text{a.e.}}{\longrightarrow} [\sigma^2(\theta) + a^2(\theta)] - a^2(\theta) = \sigma^2(\theta) \]

    因此\(S^2\)\(\sigma^2(\theta)\)的强相合估计,得证。

例5.3.3 加权均值的相合性

\(X_1,\dots,X_n\) i.i.d.,\(E(X_1)=\mu\)\(\text{Var}(X_1)=\sigma^2 < \infty\),证明\(\widehat{\mu} = \frac{2}{n(n+1)}\sum_{i=1}^n iX_i\)\(\mu\)的相合估计。

证明:用引理5.3.1的方差+偏差判别法。

  1. 验证无偏性
    由期望的线性性:

    \[E\widehat{\mu} = \frac{2}{n(n+1)} \sum_{i=1}^n i E(X_i) = \frac{2\mu}{n(n+1)} \cdot \frac{n(n+1)}{2} = \mu \]

    因此\(\widehat{\mu}\)\(\mu\)的无偏估计。

  2. 验证方差趋向0
    由独立性,方差满足\(\text{Var}(\sum a_i X_i) = \sum a_i^2 \text{Var}(X_i)\)

    \[\text{Var}(\widehat{\mu}) = \left( \frac{2}{n(n+1)} \right)^2 \sum_{i=1}^n i^2 \sigma^2 \]

    代入平方和公式\(\sum_{i=1}^n i^2 = \frac{n(n+1)(2n+1)}{6}\),化简得:

    \[\text{Var}(\widehat{\mu}) = \frac{4\sigma^2}{n^2(n+1)^2} \cdot \frac{n(n+1)(2n+1)}{6} = \frac{2\sigma^2(2n+1)}{3n(n+1)} \]

    \(n \to \infty\)时,\(\text{Var}(\widehat{\mu}) \sim \frac{4\sigma^2}{3n} \to 0\)

  3. 结论
    无偏估计的方差趋向0,由引理5.3.1,\(\widehat{\mu} \stackrel{P}{\longrightarrow} \mu\),是\(\mu\)的相合估计,得证。

例5.3.4 分层模型的相合性分析

\(Y_{ij} = \mu + u_i + \xi_{ij}\)\(i=1,\dots,n\)\(j=1,\dots,m\)\(E(u_i)=0\)\(\text{Var}(u_i)=\sigma_u^2>0\)\(E(\xi_{ij})=0\)\(\text{Var}(\xi_{ij})=\sigma^2>0\);所有\(u_i,\xi_{ij}\)相互独立。设\(\overline{Y} = \frac{1}{mn}\sum_{i=1}^n \sum_{j=1}^m Y_{ij}\),证明:

  1. \(n \to \infty\)、m固定时,\(\overline{Y}\)\(\mu\)的相合估计;
  2. \(m \to \infty\)、n固定时,\(\overline{Y}\)不是\(\mu\)的相合估计。

证明
先对\(\overline{Y} - \mu\)做分解:

\[\overline{Y} = \mu + \frac{1}{n}\sum_{i=1}^n u_i + \frac{1}{mn}\sum_{i=1}^n \sum_{j=1}^m \xi_{ij} \]

\(a_n = \frac{1}{n}\sum_{i=1}^n u_i\)\(b_{mn} = \frac{1}{mn}\sum_{i,j} \xi_{ij}\),则\(\overline{Y} - \mu = a_n + b_{mn}\)
计算矩:\(E(a_n)=E(b_{mn})=0\)\(\text{Var}(a_n)=\frac{\sigma_u^2}{n}\)\(\text{Var}(b_{mn})=\frac{\sigma^2}{mn}\)

  1. n→∞、m固定时的相合性

    • \(a_n\)\(\text{Var}(a_n)=\frac{\sigma_u^2}{n} \to 0\),无偏,故\(a_n \stackrel{P}{\longrightarrow} 0\)
    • \(b_{mn}\):m固定,\(\text{Var}(b_{mn})=\frac{\sigma^2}{mn} \to 0\),无偏,故\(b_{mn} \stackrel{P}{\longrightarrow} 0\)
      由依概率收敛的可加性,\(\overline{Y} - \mu = a_n + b_{mn} \stackrel{P}{\longrightarrow} 0\),即\(\overline{Y} \stackrel{P}{\longrightarrow} \mu\),是相合估计。
  2. m→∞、n固定时的非相合性

    • \(b_{mn}\):n固定,\(\text{Var}(b_{mn})=\frac{\sigma^2}{mn} \to 0\),故\(b_{mn} \stackrel{P}{\longrightarrow} 0\)
    • \(a_n\):n固定,\(\text{Var}(a_n)=\frac{\sigma_u^2}{n} > 0\),是与m无关的非退化随机变量,不收敛到0。
      由Slutsky定理,\(\overline{Y} - \mu = a_n + b_{mn} \stackrel{L}{\longrightarrow} a_n\),极限分布非退化,不可能依概率收敛到0,因此\(\overline{Y}\)不是\(\mu\)的相合估计。

三、渐近正态性

相合性仅保证估计量收敛到真实值,但无法刻画收敛速度和极限分布,无法支撑大样本统计推断。渐近正态性解决了这个问题,刻画了估计量的大样本分布。

3.1 核心定义

定义5.3.2 相合渐近正态(CAN)估计

\(\widehat{g}_n\)\(g(\theta)\)的估计量,若存在\(\nu(\theta) > 0\),使得

\[Z_n = \sqrt{n}\left( \widehat{g}_n - g(\theta) \right) \stackrel{L}{\longrightarrow} Z \sim N(0, \nu(\theta)) \]

则称\(\widehat{g}_n\)渐近正态的,也称\(g(\theta)\)相合渐近正态(CAN)估计

  • 依分布收敛\(\stackrel{L}{\longrightarrow}\)的含义:对任意实数x,有

    \[\lim_{n \to \infty} P_\theta\left( Z_n \leq x \right) = \Phi\left( \frac{x}{\sqrt{\nu(\theta)}} \right) \]

    其中\(\Phi(\cdot)\)是标准正态分布的分布函数。

定义的核心要点

  1. \(\sqrt{n}\)的意义:相合估计满足\(\widehat{g}_n - g(\theta) \stackrel{P}{\longrightarrow} 0\),直接取极限是退化的0;乘\(\sqrt{n}\)后将其“放大”,得到非退化的正态分布,刻画了收敛速度:\(\widehat{g}_n - g(\theta) = O_p(n^{-1/2})\),即与\(1/\sqrt{n}\)同阶。
  2. CAN估计必为相合估计\(\sqrt{n}(\widehat{g}_n - g(\theta))\)依概率有界,故\(\widehat{g}_n - g(\theta) = O_p(n^{-1/2}) \stackrel{P}{\longrightarrow} 0\),满足相合性。
  3. 渐近方差\(\nu(\theta)\)称为\(\sqrt{n}\widehat{g}_n\)的渐近方差,\(\nu(\theta)\)越小,估计量的渐近精度越高;CAN估计的方差阶为\(n^{-1}\),即\(\text{Var}(\widehat{g}_n) \approx \frac{\nu(\theta)}{n}\)

3.2 渐近正态性的核心引理

核心工具:中心极限定理(CLT)

对i.i.d.样本,若\(E(X_1)=\mu\)\(\text{Var}(X_1)=\sigma^2 < \infty\),则

\[\sqrt{n}(\overline{X} - \mu) \stackrel{L}{\longrightarrow} N(0, \sigma^2) \]

样本均值天然是总体均值的CAN估计,是构造所有CAN估计的基础。

引理5.3.3 Delta方法(渐近正态性的连续映射定理)

\(\widehat{g}_n\)\(g(\theta)\)的CAN估计,即\(\sqrt{n}(\widehat{g}_n - g(\theta)) \stackrel{L}{\longrightarrow} N(0, \nu(\theta))\);函数\(\varphi(y)\)\(y=g(\theta)\)处可导,且\(\varphi'(g(\theta)) \neq 0\),则\(\varphi(\widehat{g}_n)\)\(\varphi(g(\theta))\)的CAN估计,且

\[\sqrt{n}\left( \varphi(\widehat{g}_n) - \varphi(g(\theta)) \right) \stackrel{L}{\longrightarrow} N\left( 0, \left[ \varphi'(g(\theta)) \right]^2 \nu(\theta) \right) \]

证明
\(\varphi\)\(g(\theta)\)处可导,做泰勒展开:

\[\varphi(\widehat{g}_n) - \varphi(g(\theta)) = \varphi'(g(\theta))(\widehat{g}_n - g(\theta)) + o(|\widehat{g}_n - g(\theta)|) \]

两边乘\(\sqrt{n}\)得:

\[\sqrt{n}\left( \varphi(\widehat{g}_n) - \varphi(g(\theta)) \right) = \varphi'(g(\theta)) \cdot \sqrt{n}(\widehat{g}_n - g(\theta)) + \sqrt{n} \cdot o(|\widehat{g}_n - g(\theta)|) \]

  • 第一项:\(\sqrt{n}(\widehat{g}_n - g(\theta)) \stackrel{L}{\longrightarrow} N(0, \nu(\theta))\),故第一项依分布收敛到\(\varphi'(g(\theta)) \cdot N(0, \nu(\theta)) = N(0, [\varphi'(g(\theta))]^2 \nu(\theta))\)
  • 第二项:\(\widehat{g}_n - g(\theta) = O_p(n^{-1/2})\),故\(o(|\widehat{g}_n - g(\theta)|) = o_p(n^{-1/2})\),因此\(\sqrt{n} \cdot o_p(n^{-1/2}) = o_p(1) \stackrel{P}{\longrightarrow} 0\)

由Slutsky定理,两项相加的极限分布等于第一项的极限分布,得证。

  • 核心意义:只要得到一个参数的CAN估计,其任意可导函数的CAN估计可直接通过代入得到,同时可算出渐近方差,是大样本统计最常用的工具。

3.3 典型例题的详细证明

例5.3.7 样本均值与样本方差的渐近正态性

\(X_1,\dots,X_n\) i.i.d.,\(E(X_1)=\mu\)\(\text{Var}(X_1)=\sigma^2\)\(\text{Var}(X_1^2)=\tau^2\)\(S^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \overline{X})^2\),证明:

  1. \(\overline{X}\)\(\mu\)的CAN估计,且\(\sqrt{n}\frac{\overline{X} - \mu}{S} \stackrel{L}{\longrightarrow} N(0,1)\)
  2. \(S^2\)\(\sigma^2\)的CAN估计,且\(\sqrt{n}(S^2 - \sigma^2) \stackrel{L}{\longrightarrow} N(0, \tau^2)\)

证明

  1. 样本均值的CAN估计与标准化渐近正态性

    • 由独立同分布中心极限定理,直接得:

      \[\frac{\sqrt{n}(\overline{X} - \mu)}{\sigma} \stackrel{L}{\longrightarrow} N(0,1) \]

      两边乘\(\sigma\)\(\sqrt{n}(\overline{X} - \mu) \stackrel{L}{\longrightarrow} N(0, \sigma^2)\),满足CAN估计定义,故\(\overline{X}\)\(\mu\)的CAN估计。
    • 对标准化统计量做变形:

      \[\sqrt{n}\frac{\overline{X} - \mu}{S} = \sqrt{n}\frac{\overline{X} - \mu}{\sigma} \cdot \frac{\sigma}{S} \]

      已知第一项\(\stackrel{L}{\longrightarrow} N(0,1)\);由例5.3.2,\(S^2 \stackrel{P}{\longrightarrow} \sigma^2\),故\(S \stackrel{P}{\longrightarrow} \sigma\),因此第二项\(\frac{\sigma}{S} \stackrel{P}{\longrightarrow} 1\)
      由Slutsky定理,乘积的极限分布等于第一项的极限分布,即\(\sqrt{n}\frac{\overline{X} - \mu}{S} \stackrel{L}{\longrightarrow} N(0,1)\),得证。
  2. 样本方差的CAN估计
    利用\(S^2\)的恒等变形:

    \[S^2 = \frac{1}{n}\sum_{i=1}^n X_i^2 - \overline{X}^2 \]

    因此:

    \[\sqrt{n}(S^2 - \sigma^2) = \sqrt{n}\left( \frac{1}{n}\sum_{i=1}^n X_i^2 - \sigma^2 \right) - \sqrt{n} \cdot \overline{X}^2 \]

    • \(S^2\)具有平移不变性,不妨设\(\mu=0\),此时\(E(X_1^2)=\sigma^2\)\(\text{Var}(X_1^2)=\tau^2\)。由中心极限定理,第一项:

      \[\sqrt{n}\left( \frac{1}{n}\sum_{i=1}^n X_i^2 - \sigma^2 \right) \stackrel{L}{\longrightarrow} N(0, \tau^2) \]

    • 第二项变形为\(\sqrt{n} \cdot \overline{X}^2 = \frac{1}{\sqrt{n}} \cdot (\sqrt{n}\overline{X})^2\)\(\sqrt{n}\overline{X} \stackrel{L}{\longrightarrow} N(0, \sigma^2)\),故\((\sqrt{n}\overline{X})^2 = O_p(1)\),因此第二项\(\stackrel{P}{\longrightarrow} 0\)
      由Slutsky定理,\(\sqrt{n}(S^2 - \sigma^2) \stackrel{L}{\longrightarrow} N(0, \tau^2)\),满足CAN估计定义,得证。

例5.3.8 泊松分布参数函数的CAN估计

\(X_1,\dots,X_n\) i.i.d.,\(X_1 \sim P(\lambda)\),求\(e^{-\lambda}\)的CAN估计。

  1. 先构造\(\lambda\)的CAN估计
    泊松分布满足\(E(X_1)=\text{Var}(X_1)=\lambda\),由中心极限定理:

    \[\sqrt{n}(\overline{X} - \lambda) \stackrel{L}{\longrightarrow} N(0, \lambda) \]

    因此\(\overline{X}\)\(\lambda\)的CAN估计,渐近方差\(\nu(\lambda)=\lambda\)

  2. 用Delta方法构造\(e^{-\lambda}\)的CAN估计
    \(\varphi(\lambda)=e^{-\lambda}\),则\(\varphi'(\lambda)=-e^{-\lambda} \neq 0\),满足Delta方法条件。
    因此\(\varphi(\overline{X})=e^{-\overline{X}}\)\(e^{-\lambda}\)的CAN估计,渐近方差为:

    \[[\varphi'(\lambda)]^2 \cdot \nu(\lambda) = \lambda e^{-2\lambda} \]

    即:

    \[\sqrt{n}(e^{-\overline{X}} - e^{-\lambda}) \stackrel{L}{\longrightarrow} N(0, \lambda e^{-2\lambda}) \]

  3. 补充:\(e^{-\lambda}\)的UMVUE\(\widehat{g}_n = \left(1-\frac{1}{n}\right)^{\sum_{i=1}^n X_i}\)也是CAN估计,且与\(e^{-\overline{X}}\)有相同的渐近方差(证明见附录)。


四、最优渐近正态(BAN)估计简介

CAN估计的渐近方差越小,渐近精度越高,而正则分布族中,估计量的渐近方差存在理论下界——C-R下界

对正则分布族,\(g(\theta)\)的无偏估计的方差满足C-R不等式:

\[\text{Var}(\widehat{g}_n) \geq \frac{[g'(\theta)]^2}{nI(\theta)} \]

其中\(I(\theta)\)是单个样本的Fisher信息。

对应到CAN估计,渐近方差的下界为\([g'(\theta)]^2 I^{-1}(\theta)\)。若CAN估计的渐近方差达到该下界,则称其为最优渐近正态(BAN)估计,是大样本意义下的最优估计。

注:极大似然估计(MLE)在正则条件下是BAN估计,这是MLE被广泛使用的核心原因之一。


五、核心知识点归纳总结

核心概念 定义与表达式 核心判别方法 关键性质 核心工具/定理
弱相合估计 \(\forall \theta \in \Theta\)\(\widehat{g}_n \stackrel{P_\theta}{\longrightarrow} g(\theta)\),即\(\lim_{n \to \infty} P(|\widehat{g}_n - g(\theta)| \geq \varepsilon)=0\) 1. \(E|\widehat{g}_n - g(\theta)|^r \to 0\)(r>0)
2. 无偏/渐近无偏 + 方差→0
3. 依概率收敛定义
1. 估计量的大样本基本要求,n足够大时估计量靠近真实值
2. 连续函数保持相合性
3. 强相合可推出弱相合,反之不成立
马尔可夫/切比雪夫不等式、弱大数定律、Slutsky定理
强相合估计 \(\forall \theta \in \Theta\)\(\widehat{g}_n \stackrel{\text{a.e. } P_\theta}{\longrightarrow} g(\theta)\),即\(P(\lim_{n \to \infty} \widehat{g}_n = g(\theta))=1\) 1. 无偏/渐近无偏 + \(\sum_{n=1}^\infty \text{Var}(\widehat{g}_n)\)收敛
2. 强大数定律
3. 几乎必然收敛定义
1. 比弱相合要求更严格,以概率1收敛到真实值
2. 连续函数保持强相合性
强大数定律、Borel-Cantelli引理
CAN估计 存在\(\nu(\theta)>0\),使得\(\sqrt{n}(\widehat{g}_n - g(\theta)) \stackrel{L}{\longrightarrow} N(0, \nu(\theta))\) 1. 中心极限定理(样本均值)
2. Delta方法(参数函数)
1. CAN估计必为相合估计,反之不成立
2. 收敛速度为\(O_p(n^{-1/2})\)
3. 渐近方差越小,渐近精度越高
4. 可导函数保持渐近正态性
中心极限定理、Slutsky定理、泰勒展开(Delta方法)
BAN估计 渐近方差达到C-R下界的CAN估计,即\(\nu(\theta)=[g'(\theta)]^2 I^{-1}(\theta)\) 验证渐近方差等于C-R下界 大样本意义下的最优估计,渐近精度达到理论下界 C-R不等式、Fisher信息

最优渐近正态(BAN)估计 详细讲解与完整推导

一、BAN估计的核心定义与本质

1.1 定义拆解

定义5.3.3(最优渐近正态BAN估计)
设总体\(X \sim \{f(x,\theta), \theta \in \Theta\}\)\(n\)个样本的Fisher信息矩阵为\(I(\theta)\),单个样本的Fisher信息矩阵为\(i(\theta)\),满足

\[\lim_{n \to +\infty} \frac{I(\theta)}{n} = i(\theta) \]

若待估函数\(g(\theta)\)的估计量\(\widehat{g}_n(X)\)满足

\[\sqrt{n}\left\{ \widehat{g}_n(X_1,\dots,X_n) - g(\theta) \right\} \stackrel{L}{\longrightarrow} N\left( 0, G(\theta)i^{-1}(\theta)G^\text{T}(\theta) \right) \]

其中\(G(\theta) = \frac{\partial g(\theta)}{\partial \theta^\text{T}}\)\(g(\theta)\)对参数\(\theta\)的梯度/雅可比矩阵),则称\(\widehat{g}_n(X)\)\(g(\theta)\)最优渐近正态(Best Asymptotic Normal, BAN)估计

单参数简化形式

\(\theta\)\(g(\theta)\)均为单参数,\(G(\theta)=g'(\theta)\),定义简化为:

\[\sqrt{n}\left\{ \widehat{g}_n - g(\theta) \right\} \stackrel{L}{\longrightarrow} N\left( 0, [g'(\theta)]^2 i^{-1}(\theta) \right) \]

i.i.d.样本的特殊性质

\(X_1,\dots,X_n\)独立同分布,则n个样本的Fisher信息 = n×单个样本的Fisher信息,即\(I(\theta) = n \cdot i(\theta)\),天然满足\(\frac{I(\theta)}{n}=i(\theta)\),这是绝大多数例题的前提。


1.2 BAN估计的核心本质

BAN估计是大样本意义下的最优估计,核心要求有两点:

  1. 首先必须是CAN估计(相合渐近正态估计):估计量满足渐近正态性,且天然具有相合性;
  2. 其次渐近方差达到C-R下界的渐近形式:C-R下界是无偏估计方差的理论最小值,BAN估计的渐近方差恰好达到这个下界,是大样本下精度最高的估计。

二、例题完整推导与证明

例5.3.9 正态分布下\(\overline{X}^2\)\(\mu^2\)的BAN估计

\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim N(\mu, \sigma^2)\),证明\(\overline{X}^2\)\(\mu^2\)的BAN估计。

完整证明步骤

  1. 计算单个样本的Fisher信息\(i(\mu)\)
    正态分布的概率密度为:

    \[f(x;\mu) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma^2} \right\} \]

    取对数得对数似然:

    \[\ln f(x;\mu) = -\frac{1}{2}\ln(2\pi\sigma^2) - \frac{(x-\mu)^2}{2\sigma^2} \]

    \(\mu\)求二阶偏导:

    \[\frac{\partial^2 \ln f}{\partial \mu^2} = -\frac{1}{\sigma^2} \]

    单个样本的Fisher信息为:

    \[i(\mu) = -E\left[ \frac{\partial^2 \ln f}{\partial \mu^2} \right] = -E\left[ -\frac{1}{\sigma^2} \right] = \frac{1}{\sigma^2} \]

  2. 计算待估函数的导数
    待估函数\(g(\mu)=\mu^2\),一阶导数为:

    \[g'(\mu) = 2\mu \]

  3. 计算C-R下界对应的渐近方差
    单参数BAN估计的理论最小渐近方差为:

    \[[g'(\mu)]^2 i^{-1}(\mu) = (2\mu)^2 \cdot \sigma^2 = 4\mu^2\sigma^2 \]

  4. 推导估计量\(\overline{X}^2\)的渐近正态性
    由独立同分布的中心极限定理,样本均值满足:

    \[\sqrt{n}(\overline{X} - \mu) \stackrel{L}{\longrightarrow} N(0, \sigma^2) \]

    \(\overline{X}\)\(\mu\)的CAN估计。
    Delta方法(可导函数保持渐近正态性),\(g(\mu)=\mu^2\)\(\mu\)处可导且\(g'(\mu)\neq0\),因此:

    \[\sqrt{n}(\overline{X}^2 - \mu^2) \stackrel{L}{\longrightarrow} N\left( 0, [g'(\mu)]^2 \cdot \sigma^2 \right) = N(0, 4\mu^2\sigma^2) \]

  5. 验证BAN估计
    估计量\(\overline{X}^2\)的渐近方差恰好等于C-R下界对应的理论最小渐近方差,因此\(\overline{X}^2\)\(\mu^2\)的BAN估计,得证。


例5.3.10 泊松分布下\(\left(1-\frac{1}{n}\right)^T\)\(e^{-\lambda}\)的BAN估计

\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim P(\lambda)\),证明\(\widehat{g}_n(X) = \left(1-\frac{1}{n}\right)^T\)\(T=\sum_{i=1}^n X_i\))为\(g(\lambda)=e^{-\lambda}\)的BAN估计。

完整证明步骤

  1. 计算单个样本的Fisher信息\(i(\lambda)\)
    泊松分布的概率质量函数为:

    \[P(X=x) = \frac{\lambda^x e^{-\lambda}}{x!}, \quad x=0,1,2,\dots \]

    取对数得对数似然:

    \[\ln f(x;\lambda) = x\ln\lambda - \lambda - \ln(x!) \]

    \(\lambda\)求二阶偏导:

    \[\frac{\partial^2 \ln f}{\partial \lambda^2} = -\frac{x}{\lambda^2} \]

    单个样本的Fisher信息为:

    \[i(\lambda) = -E\left[ \frac{\partial^2 \ln f}{\partial \lambda^2} \right] = -E\left[ -\frac{X}{\lambda^2} \right] = \frac{E[X]}{\lambda^2} = \frac{\lambda}{\lambda^2} = \frac{1}{\lambda} \]

  2. 计算待估函数的导数
    待估函数\(g(\lambda)=e^{-\lambda}\),一阶导数为:

    \[g'(\lambda) = -e^{-\lambda} \]

  3. 计算C-R下界对应的渐近方差
    理论最小渐近方差为:

    \[[g'(\lambda)]^2 i^{-1}(\lambda) = (-e^{-\lambda})^2 \cdot \lambda = \lambda e^{-2\lambda} \]

  4. 推导估计量\(\widehat{g}_n\)的渐近正态性
    首先,由中心极限定理,\(\sqrt{n}(\overline{X} - \lambda) \stackrel{L}{\longrightarrow} N(0, \lambda)\),结合Delta方法得:

    \[\sqrt{n}(e^{-\overline{X}} - e^{-\lambda}) \stackrel{L}{\longrightarrow} N(0, \lambda e^{-2\lambda}) \]

    对估计量做变形:\(T = \sum_{i=1}^n X_i = n\overline{X}\),因此\(\widehat{g}_n = \left(1-\frac{1}{n}\right)^{n\overline{X}}\)
    \(\ln(1-\frac{1}{n})\)做泰勒展开:\(\ln(1-\frac{1}{n}) = -\frac{1}{n} - \frac{1}{2n^2} + o\left(\frac{1}{n^2}\right)\),因此:

    \[n\ln\left(1-\frac{1}{n}\right) = -1 - \frac{1}{2n} + o\left(\frac{1}{n}\right) \]

    代入估计量得:

    \[\widehat{g}_n = \exp\left\{ n\overline{X} \ln\left(1-\frac{1}{n}\right) \right\} = e^{-\overline{X}} \cdot \exp\left\{ -\frac{\overline{X}}{2n} + o\left(\frac{1}{n}\right) \right\} \]

    对指数项泰勒展开:\(\exp\left\{ -\frac{\overline{X}}{2n} + o\left(\frac{1}{n}\right) \right\} = 1 - \frac{\overline{X}}{2n} + o\left(\frac{1}{n}\right)\),因此:

    \[\widehat{g}_n - e^{-\overline{X}} = e^{-\overline{X}} \cdot \left( -\frac{\overline{X}}{2n} + o\left(\frac{1}{n}\right) \right) \]

    两边乘\(\sqrt{n}\)得:

    \[\sqrt{n}(\widehat{g}_n - e^{-\overline{X}}) = e^{-\overline{X}} \cdot \left( -\frac{\overline{X}}{2\sqrt{n}} + o\left(\frac{1}{\sqrt{n}}\right) \right) \stackrel{P}{\longrightarrow} 0 \]

    分解目标项:

    \[\sqrt{n}(\widehat{g}_n - e^{-\lambda}) = \sqrt{n}(e^{-\overline{X}} - e^{-\lambda}) + \sqrt{n}(\widehat{g}_n - e^{-\overline{X}}) \]

    第一项依分布收敛到\(N(0, \lambda e^{-2\lambda})\),第二项依概率收敛到0,由Slutsky定理得:

    \[\sqrt{n}(\widehat{g}_n - e^{-\lambda}) \stackrel{L}{\longrightarrow} N(0, \lambda e^{-2\lambda}) \]

  5. 验证BAN估计
    估计量的渐近方差恰好等于C-R下界,因此\(\left(1-\frac{1}{n}\right)^T\)\(e^{-\lambda}\)的BAN估计,得证。


例5.3.11 伯努利分布下\(\overline{X}(1-\overline{X})\)\(\text{Var}(X_1)\)的BAN估计

\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim b(1, \theta)\)\(0<\theta<1\),证明\(\varphi(\overline{X})=\overline{X}(1-\overline{X})\)\(\sigma^2=\text{Var}(X_1)=\theta(1-\theta)\)的BAN估计(\(\theta \neq 1/2\))。

完整证明步骤

  1. 计算单个样本的Fisher信息\(i(\theta)\)
    伯努利分布的概率质量函数为:

    \[P(X=x) = \theta^x (1-\theta)^{1-x}, \quad x=0,1 \]

    取对数得对数似然:

    \[\ln f(x;\theta) = x\ln\theta + (1-x)\ln(1-\theta) \]

    \(\theta\)求二阶偏导:

    \[\frac{\partial^2 \ln f}{\partial \theta^2} = -\frac{x}{\theta^2} - \frac{1-x}{(1-\theta)^2} \]

    单个样本的Fisher信息为:

    \[i(\theta) = -E\left[ \frac{\partial^2 \ln f}{\partial \theta^2} \right] = \frac{E[X]}{\theta^2} + \frac{E[1-X]}{(1-\theta)^2} = \frac{\theta}{\theta^2} + \frac{1-\theta}{(1-\theta)^2} = \frac{1}{\theta(1-\theta)} \]

  2. 计算待估函数的导数
    待估函数\(g(\theta)=\theta(1-\theta)=\theta-\theta^2\),一阶导数为:

    \[g'(\theta) = 1-2\theta \]

    \(\theta \neq 1/2\)时,\(g'(\theta) \neq 0\),满足Delta方法的条件。

  3. 计算C-R下界对应的渐近方差
    理论最小渐近方差为:

    \[[g'(\theta)]^2 i^{-1}(\theta) = (1-2\theta)^2 \cdot \theta(1-\theta) \]

  4. 推导估计量\(\varphi(\overline{X})\)的渐近正态性
    由中心极限定理,样本均值满足:

    \[\sqrt{n}(\overline{X} - \theta) \stackrel{L}{\longrightarrow} N(0, \theta(1-\theta)) \]

    \(\overline{X}\)\(\theta\)的CAN估计。
    由Delta方法,\(g(\theta)=\theta(1-\theta)\)\(\theta\)处可导且\(g'(\theta)\neq0\),因此:

    \[\sqrt{n}\left( \overline{X}(1-\overline{X}) - \theta(1-\theta) \right) \stackrel{L}{\longrightarrow} N\left( 0, (1-2\theta)^2 \theta(1-\theta) \right) \]

  5. 验证BAN估计
    估计量的渐近方差恰好等于C-R下界,因此\(\overline{X}(1-\overline{X})\)\(\sigma^2=\theta(1-\theta)\)的BAN估计(\(\theta \neq 1/2\)),得证。

特殊情况:\(\theta=1/2\)的补充说明

\(\theta=1/2\)时,\(g'(\theta)=1-2\times(1/2)=0\),一阶Delta方法失效,需用二阶泰勒展开:

\[g(\overline{X}) - g(1/2) = \frac{1}{2}g''(1/2)(\overline{X}-1/2)^2 + o\left( (\overline{X}-1/2)^2 \right) = -(\overline{X}-1/2)^2 + o\left( (\overline{X}-1/2)^2 \right) \]

两边乘\(n\)得:

\[n\left( \varphi(\overline{X}) - 1/4 \right) = -\left( \sqrt{n}(\overline{X}-1/2) \right)^2 + o(1) \]

已知\(\sqrt{n}(\overline{X}-1/2) \stackrel{L}{\longrightarrow} N(0, 1/4)\),因此\(\left( 2\sqrt{n}(\overline{X}-1/2) \right)^2 \stackrel{L}{\longrightarrow} \chi^2(1)\),最终得:

\[-4n\left( \varphi(\overline{X}) - 1/4 \right) \stackrel{L}{\longrightarrow} \chi^2(1) \]

此时极限分布不再是正态分布,因此\(\varphi(\overline{X})\)不是CAN估计,自然也不是BAN估计。


三、核心知识点汇总表

核心概念 核心要求 关键公式 核心性质
BAN估计 1. 是CAN估计(渐近正态+相合)
2. 渐近方差达到C-R下界
单参数:\(\sqrt{n}(\widehat{g}_n - g(\theta)) \stackrel{L}{\longrightarrow} N(0, [g'(\theta)]^2 i^{-1}(\theta))\) 大样本意义下的最优估计,渐近精度达到理论下界
Fisher信息(单样本) 衡量分布包含的参数信息量 \(i(\theta) = -E\left[ \frac{\partial^2 \ln f(x;\theta)}{\partial \theta^2} \right]\) i.i.d.样本下,n个样本的Fisher信息\(I(\theta)=n\cdot i(\theta)\)
Delta方法 函数在真实值处可导,且一阶导数非0 \(\sqrt{n}(\varphi(\widehat{\theta}_n)-\varphi(\theta)) \stackrel{L}{\longrightarrow} N(0, [\varphi'(\theta)]^2 \nu(\theta))\) 保持渐近正态性,可直接计算参数函数的渐近方差
Slutsky定理 一项依分布收敛,另一项依概率收敛到常数 \(X_n \stackrel{L}{\longrightarrow} X\)\(Y_n \stackrel{P}{\longrightarrow} c\),则\(X_n+Y_n \stackrel{L}{\longrightarrow} X+c\)\(X_n Y_n \stackrel{L}{\longrightarrow} cX\) 处理渐近正态性推导中的余项,是大样本分析的核心工具

posted on 2026-02-25 08:37  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航