昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

5.3.3矩估计的相合性与渐近正态性

矩估计的相合性与渐近正态性 详细讲解与推导证明

作为大样本参数估计的核心内容,矩估计的两大性质完全建立在概率论极限定理之上:相合性由大数定律支撑,渐近正态性由中心极限定理与delta方法支撑。以下从基础定义、分步推导、定理证明、归纳总结四个维度完整讲解。


一、前置基础定义与符号说明

我们始终基于独立同分布(i.i.d.)样本\(X_1,X_2,\dots,X_n\)(来自总体\(X\))展开,先明确核心符号的定义,避免混淆:

符号 定义 本质
\(\mu_j = \mathbb{E}(X^j)\) 总体\(j\)阶原点矩 总体分布的数字特征,待估的真值
\(\alpha_j = \mathbb{E}(X-\mu_1)^j\) 总体\(j\)阶中心矩 总体分布的数字特征,\(\mu_1=\mathbb{E}(X)\)为总体均值
\(a_j = \widehat{\mu}_j = \frac{1}{n}\sum_{i=1}^n X_i^j\) 样本\(j\)阶原点矩 总体原点矩的矩估计量
\(m_j = \widehat{\alpha}_j = \frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^j\) 样本\(j\)阶中心矩 总体中心矩的矩估计量,\(\overline{X}=a_1\)为样本均值

二、中心矩与原点矩的函数关系推导

矩估计的核心是“样本矩替换总体矩”,而中心矩可表示为原点矩的函数,这是性质传递的关键桥梁,我们先完成这个基础推导。

1. 总体中心矩的二项式展开

根据二项式定理\((a-b)^j = \sum_{r=0}^j \binom{j}{r}a^r(-b)^{j-r}\),令\(a=X\)\(b=\mu_1\),则:

\[(X-\mu_1)^j = \sum_{r=0}^j \binom{j}{r} X^r (-1)^{j-r} \mu_1^{j-r} \]

对等式两边取期望(期望是线性算子,可与求和交换顺序):

\[\alpha_j = \mathbb{E}\left[(X-\mu_1)^j\right] = \sum_{r=0}^j \binom{j}{r} (-1)^{j-r} \mu_1^{j-r} \cdot \mathbb{E}(X^r) \]

代入\(\mathbb{E}(X^r)=\mu_r\),得到教材中的核心等式:

\[\boldsymbol{\alpha_j = \sum_{r=0}^j \binom{j}{r} \mu_r (-1)^{j-r} \mu_1^{j-r}} \]

结论:任意阶总体中心矩,都是有限个总体原点矩的连续多项式函数

2. 样本中心矩的对应展开

对样本中心矩做完全一致的二项式展开,令\(a=X_i\)\(b=\overline{X}\),则:

\[(X_i-\overline{X})^j = \sum_{r=0}^j \binom{j}{r} X_i^r (-1)^{j-r} \overline{X}^{j-r} \]

\(i=1\)\(n\)求和后除以\(n\),交换求和顺序并提取与\(i\)无关的项:

\[m_j = \frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^j = \sum_{r=0}^j \binom{j}{r} (-1)^{j-r} \overline{X}^{j-r} \cdot \frac{1}{n}\sum_{i=1}^n X_i^r \]

代入\(\frac{1}{n}\sum_{i=1}^n X_i^r = a_r\)\(\overline{X}=a_1\),得到:

\[\boldsymbol{m_j = \sum_{r=0}^j \binom{j}{r} a_r (-1)^{j-r} a_1^{j-r}} \]

结论:样本中心矩与总体中心矩的函数形式完全一致,是有限个样本原点矩的连续多项式函数


三、矩估计的相合性(强相合性)详细讲解与证明

1. 相合性的核心定义

估计量\(\widehat{\theta}_n\)\(\theta\)强相合估计,指当样本量\(n \to \infty\)时,\(\widehat{\theta}_n\)几乎必然收敛(a.e./a.s.)到真值\(\theta\),即:

\[\widehat{\theta}_n \xrightarrow{\text{a.e.}} \theta \quad (n \to \infty) \]

通俗理解:只要样本量足够大,估计量几乎可以无限接近真实参数,是估计量“大样本下靠谱”的最基本要求。

2. 核心工具1:科尔莫戈罗夫强大数定律(SLLN)

\(Y_1,Y_2,\dots,Y_n\)是独立同分布的随机变量序列,且\(\mathbb{E}|Y_1| < \infty\)(即一阶矩存在),则样本均值几乎必然收敛到总体均值:

\[\frac{1}{n}\sum_{i=1}^n Y_i \xrightarrow{\text{a.e.}} \mathbb{E}(Y_1) \quad (n \to \infty) \]

3. 样本原点矩的强相合性证明

\(Y_i = X_i^j\)(将\(X_i\)\(j\)次方作为新的随机变量),满足:

  1. \(X_1,\dots,X_n\)独立同分布,故\(Y_1,\dots,Y_n\)也独立同分布;
  2. 总体\(j\)阶原点矩存在,即\(\mathbb{E}(X^j)=\mu_j\)存在,等价于\(\mathbb{E}|Y_1|=\mathbb{E}|X^j| < \infty\),满足强大数定律的条件。

直接应用强大数定律,得到:

\[\boldsymbol{a_j = \frac{1}{n}\sum_{i=1}^n X_i^j = \frac{1}{n}\sum_{i=1}^n Y_i \xrightarrow{\text{a.e.}} \mathbb{E}(Y_1) = \mu_j \quad (n \to \infty)} \]

结论\(j\)阶样本原点矩\(a_j\),是总体\(j\)阶原点矩\(\mu_j\)的强相合估计。

4. 核心工具2:多元连续映射定理(CMT)

若随机变量序列\(\widehat{\theta}_n^{(1)} \xrightarrow{\text{a.e.}} \theta^{(1)},\dots,\widehat{\theta}_n^{(k)} \xrightarrow{\text{a.e.}} \theta^{(k)}\),且多元函数\(G(x_1,\dots,x_k)\)\((\theta^{(1)},\dots,\theta^{(k)})\)处连续,则:

\[G(\widehat{\theta}_n^{(1)},\dots,\widehat{\theta}_n^{(k)}) \xrightarrow{\text{a.e.}} G(\theta^{(1)},\dots,\theta^{(k)}) \]

核心意义:连续函数可以保持几乎必然收敛性。

5. 样本中心矩的强相合性证明

我们已经得到两个关键前提:

  1. 对所有\(r=0,1,\dots,j\),样本原点矩\(a_r \xrightarrow{\text{a.e.}} \mu_r\)
  2. 样本中心矩\(m_j\)\(a_0,a_1,\dots,a_j\)的多项式函数,而多项式函数处处连续,满足连续映射定理的条件;
  3. 总体中心矩\(\alpha_j\)是该连续函数在总体原点矩处的取值。

根据多元连续映射定理,直接得到:

\[\boldsymbol{m_j = G(a_0,a_1,\dots,a_j) \xrightarrow{\text{a.e.}} G(\mu_0,\mu_1,\dots,\mu_j) = \alpha_j \quad (n \to \infty)} \]

结论\(j\)阶样本中心矩\(m_j\),是总体\(j\)阶中心矩\(\alpha_j\)的强相合估计。

6. 一般矩估计的强相合性(定理5.3.3)证明

定理内容

\(G(x_1,\dots,x_k;y_1,\dots,y_l)\)关于各变元连续,则矩估计

\[\widehat{g}(X) = G(a_1,\dots,a_k;m_1,\dots,m_l) \]

是待估参数\(g(\theta) = G(\mu_1,\dots,\mu_k;\alpha_1,\dots,\alpha_l)\)的强相合估计。

证明过程

  1. 已证:对所有\(1 \leq r \leq k\)\(a_r \xrightarrow{\text{a.e.}} \mu_r\);对所有\(1 \leq s \leq l\)\(m_s \xrightarrow{\text{a.e.}} \alpha_s\)
  2. 函数\(G\)关于所有变元连续,满足多元连续映射定理的条件;
  3. 由连续映射定理直接得:

\[\boldsymbol{\widehat{g}(X) = G(a_1,\dots,a_k;m_1,\dots,m_l) \xrightarrow{\text{a.e.}} G(\mu_1,\dots,\mu_k;\alpha_1,\dots,\alpha_l) = g(\theta)} \]

证毕。

定理意义:只要待估参数能表示为有限个总体矩的连续函数,其矩估计就一定是强相合的,覆盖了绝大多数矩估计的应用场景。


四、矩估计的渐近正态性详细讲解与证明

相合性仅说明估计量会收敛到真值,而渐近正态性进一步刻画了大样本下估计量的分布形态,是参数区间估计、假设检验的核心理论基础。

1. 渐近正态性的核心定义

估计量\(\widehat{\theta}_n\)\(\theta\)相合渐近正态(CAN)估计,若满足:

\[\sqrt{n}(\widehat{\theta}_n - \theta) \xrightarrow{L} N(0,V(\theta)) \quad (n \to \infty) \]

其中\(\xrightarrow{L}\)表示依分布收敛\(V(\theta)\)为渐近方差。

2. 核心工具1:林德伯格-莱维中心极限定理(CLT)

\(Y_1,Y_2,\dots,Y_n\)是独立同分布的随机变量序列,且\(\mathbb{E}(Y_1)=\mu\)\(\text{Var}(Y_1)=\sigma^2 < \infty\),则:

\[\sqrt{n}\left( \frac{1}{n}\sum_{i=1}^n Y_i - \mu \right) \xrightarrow{L} N(0,\sigma^2) \quad (n \to \infty) \]

3. 样本原点矩的渐近正态性证明

\(Y_i = X_i^j\),满足:

  1. \(X_1,\dots,X_n\)独立同分布,故\(Y_1,\dots,Y_n\)也独立同分布;
  2. 总体\(2j\)阶矩存在(\(\mathbb{E}(X^{2j}) < \infty\)),保证\(Y_i\)的方差有限:

    \[\text{Var}(Y_i) = \mathbb{E}(Y_i^2) - [\mathbb{E}(Y_i)]^2 = \mathbb{E}(X^{2j}) - (\mathbb{E}(X^j))^2 = \nu_j < \infty \]

  3. \(\mathbb{E}(Y_i) = \mu_j\),满足中心极限定理的条件。

直接应用CLT,得到:

\[\boldsymbol{\sqrt{n}(a_j - \mu_j) = \sqrt{n}\left( \frac{1}{n}\sum_{i=1}^n Y_i - \mathbb{E}(Y_1) \right) \xrightarrow{L} N(0,\nu_j)} \]

结论\(j\)阶样本原点矩\(a_j\)是总体\(j\)阶原点矩\(\mu_j\)的相合渐近正态(CAN)估计。

4. 多元样本原点矩的渐近正态性

将各阶样本原点矩写成向量形式:

  • 样本原点矩向量:\(\boldsymbol{a} = (a_1,a_2,\dots,a_k)^T\)
  • 总体原点矩向量:\(\boldsymbol{\mu} = (\mu_1,\mu_2,\dots,\mu_k)^T\)

多元中心极限定理,直接得到向量形式的渐近正态性:

\[\boldsymbol{\sqrt{n}(\boldsymbol{a} - \boldsymbol{\mu}) \xrightarrow{L} N_k(\boldsymbol{0},\Sigma)} \]

其中\(N_k\)\(k\)维正态分布,协方差矩阵\(\Sigma\)的元素为:

\[\Sigma_{ij} = \text{Cov}(X^i,X^j) = \mathbb{E}(X^{i+j}) - \mathbb{E}(X^i)\mathbb{E}(X^j) \]

5. 核心工具2:多元delta方法

\(\sqrt{n}(\widehat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}) \xrightarrow{L} N_k(\boldsymbol{0},\Sigma)\),多元函数\(h(\boldsymbol{x})\)\(\boldsymbol{\theta}\)处可微(一阶偏导数连续),梯度向量\(H = \nabla h(\boldsymbol{\theta}) = \left( \frac{\partial h}{\partial x_1},\dots,\frac{\partial h}{\partial x_k} \right)^T \neq \boldsymbol{0}\),则:

\[\sqrt{n}(h(\widehat{\boldsymbol{\theta}}_n) - h(\boldsymbol{\theta})) \xrightarrow{L} N(0, H^T \Sigma H) \]

核心思想:通过一阶泰勒展开将非线性函数线性化,把原点矩的渐近正态性传递给一般矩估计量。

6. 一般矩估计的渐近正态性(定理5.3.4)证明

定理内容

\(h(x_1,\dots,x_k)\)关于各变元可导,则矩估计\(\widehat{g}(X) = h(a_1,\dots,a_k)\)\(g(\theta)=h(\mu_1,\dots,\mu_k)\)的相合渐近正态估计,且

\[\sqrt{n}\{\widehat{g}(X) - g(\theta)\} \xrightarrow{L} N(0, H^T \Sigma H) \]

其中\(H^T = \left( \frac{\partial h}{\partial \mu_1},\dots,\frac{\partial h}{\partial \mu_k} \right)\)\(\Sigma\)为多元原点矩的渐近协方差矩阵。

证明过程

  1. 由多元中心极限定理,已得\(\sqrt{n}(\boldsymbol{a} - \boldsymbol{\mu}) \xrightarrow{L} N_k(\boldsymbol{0},\Sigma)\)
  2. \(h(\boldsymbol{a})\)\(\boldsymbol{\mu}\)处做一阶泰勒展开:

    \[h(\boldsymbol{a}) = h(\boldsymbol{\mu}) + H^T (\boldsymbol{a} - \boldsymbol{\mu}) + o(\|\boldsymbol{a} - \boldsymbol{\mu}\|) \]

    其中\(o(\|\boldsymbol{a} - \boldsymbol{\mu}\|)\)为高阶无穷小项,当\(n \to \infty\)时,\(\boldsymbol{a} \xrightarrow{\text{a.e.}} \boldsymbol{\mu}\),故该项依概率收敛到0;
  3. 移项后两边乘以\(\sqrt{n}\)

    \[\sqrt{n}(h(\boldsymbol{a}) - h(\boldsymbol{\mu})) = H^T \cdot \sqrt{n}(\boldsymbol{a} - \boldsymbol{\mu}) + \sqrt{n} \cdot o(\|\boldsymbol{a} - \boldsymbol{\mu}\|) \]

  4. 余项\(\sqrt{n} \cdot o(\|\boldsymbol{a} - \boldsymbol{\mu}\|)\)依概率收敛到0,不影响极限分布;根据依分布收敛的性质,最终得到:

\[\boldsymbol{\sqrt{n}(\widehat{g} - g(\theta)) \xrightarrow{L} N(0, H^T \Sigma H)} \]

证毕。

定理意义:给出了任意矩估计量的大样本渐近分布,是矩估计用于统计推断的核心理论依据,同时证明了矩估计是相合渐近正态(CAN)估计。


五、核心知识点归纳总结表

性质分类 核心理论工具 前提条件 核心结论 关键意义
样本原点矩的强相合性 科尔莫戈罗夫强大数定律 1. 样本独立同分布;
2. 总体\(j\)阶原点矩存在
\(a_j = \frac{1}{n}\sum_{i=1}^n X_i^j \xrightarrow{\text{a.e.}} \mu_j\) 证明样本原点矩估计总体原点矩的大样本合理性,是矩估计相合性的基础
样本中心矩的强相合性 强大数定律 + 多元连续映射定理 1. 样本独立同分布;
2. 总体\(j\)阶矩存在;
3. 中心矩是原点矩的连续函数
\(m_j = \frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^j \xrightarrow{\text{a.e.}} \alpha_j\) 将相合性从原点矩拓展到中心矩,覆盖矩估计的核心估计对象
一般矩估计的强相合性(定理5.3.3) 强大数定律 + 多元连续映射定理 1. 样本独立同分布;
2. 待估参数可表示为有限个总体矩的连续函数;
3. 用到的总体矩均存在
\(\widehat{g}=G(a_1,\dots,a_k;m_1,\dots,m_l) \xrightarrow{\text{a.e.}} g(\theta)\) 矩估计通用相合性定理,覆盖绝大多数矩估计场景,证明矩估计天然具备强相合性
样本原点矩的渐近正态性 林德伯格-莱维中心极限定理 1. 样本独立同分布;
2. 总体\(2j\)阶矩存在(保证方差有限)
\(\sqrt{n}(a_j - \mu_j) \xrightarrow{L} N(0,\nu_j),\ \nu_j=\text{Var}(X^j)\) 证明样本原点矩的大样本分布为正态分布,为原点矩的统计推断提供理论基础
多元样本原点矩的渐近正态性 多元中心极限定理 1. 样本独立同分布;
2. 总体\(2k\)阶矩存在(保证协方差矩阵有限)
\(\sqrt{n}(\boldsymbol{a} - \boldsymbol{\mu}) \xrightarrow{L} N_k(\boldsymbol{0},\Sigma),\ \Sigma_{ij}=\text{Cov}(X^i,X^j)\) 将渐近正态性拓展到向量形式,为一般矩估计的渐近正态性提供支撑
一般矩估计的渐近正态性(定理5.3.4) 多元中心极限定理 + 多元delta方法 1. 样本独立同分布;
2. 待估参数可表示为有限个总体原点矩的可微函数;
3. 总体足够高阶矩存在;
4. 梯度\(H \neq \boldsymbol{0}\)
\(\sqrt{n}(\widehat{g} - g(\theta)) \xrightarrow{L} N(0, H^T \Sigma H)\) 矩估计通用渐近正态性定理,给出任意矩估计的大样本分布,是矩估计做区间估计、假设检验的核心依据

六、关键补充说明

  1. 矩估计大样本性质的核心逻辑
    矩估计的本质是“样本矩替换总体矩”,两大性质完全由极限定理传递:

    • 相合性 = 大数定律 + 连续映射定理
    • 渐近正态性 = 中心极限定理 + delta方法
  2. 矩存在的前提约束
    所有性质的前提是总体足够高阶的矩必须存在。若总体矩不存在(如柯西分布),则矩估计的相合性、渐近正态性均不成立,这是矩估计的核心局限性。

  3. CAN估计与BAN估计的区别
    矩估计是CAN估计(相合渐近正态估计),但通常不是BAN估计(最优渐近正态估计)。BAN估计要求渐近方差达到克拉美-罗下界,而矩估计的渐近方差通常大于极大似然估计(MLE),效率弱于MLE;但矩估计的优势是计算简单、对总体分布假设少,稳健性更强。

posted on 2026-02-25 08:46  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航