昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

5.3.1估计量的渐近性质与随机序列收敛性

估计量的渐近性质与随机序列收敛性 详细讲解与证明

一、引言:为什么研究渐近性质

在数理统计中,估计量的小样本性质(如无偏性、有效性)往往难以验证或不满足,而渐近性质(大样本性质) 研究样本量\(n \to +\infty\)时估计量的收敛行为,是大样本统计推断(假设检验、置信区间构造)的核心基础。我们主要关注两类核心性质:

  1. 相合性:估计量是否依概率收敛到被估计的真实参数;
  2. 渐近正态性:标准化后的估计量是否依分布收敛到正态分布。

而这两类性质的数学基础,是随机变量序列的收敛性理论。


二、随机变量序列的四种收敛性

\(\xi_n, \xi, \eta\)为随机变量,\(b,c\)为常数;\(\xi_n\)的分布函数为\(F_n(x)\)\(\xi\)的分布函数为\(F(x)\),讨论\(n \to +\infty\)时的收敛行为。

2.1 四种收敛性的定义与直观解释

收敛类型 数学定义 直观含义
依概率收敛
\(\xi_n \stackrel{P}{\to} \xi\)
\(\forall \varepsilon>0\),有\(\lim_{n \to \infty} P(|\xi_n - \xi| \geq \varepsilon) = 0\) 当n充分大时,\(\xi_n\)\(\xi\)的偏差超过任意小正数\(\varepsilon\)的概率趋近于0,是估计量相合性的数学定义
r阶矩收敛
\(\xi_n \stackrel{r}{\to} \xi\)
\(\lim_{n \to \infty} E|\xi_n - \xi|^r = 0\)
特别\(r=2\)时为均方收敛,等价于\(MSE(\xi_n) \to 0\)
要求\(\xi_n\)\(\xi\)的偏差的r阶矩趋于0,对随机变量的矩有严格要求,比依概率收敛更强
几乎处处收敛(以概率1收敛)
\(\xi_n \to \xi \ (a.e./a.s.)\)
\(P\left( \omega: \lim_{n \to \infty} \xi_n(\omega) = \xi(\omega) \right) = 1\) 除了一个概率为0的零测集外,对所有样本点\(\omega\),数列\(\xi_n(\omega)\)都收敛到\(\xi(\omega)\),是最强的收敛性
依分布收敛
\(\xi_n \stackrel{L/d}{\to} \xi\)
\(F(x)\)的所有连续点\(x\)处,有\(\lim_{n \to \infty} F_n(x) = F(x)\) 不要求随机变量本身的取值接近,仅要求其分布函数在极限下一致,是最弱的收敛性,对应渐近正态性的核心定义

2.2 收敛性的强弱关系与核心证明

四种收敛性的核心蕴含关系为:

\[\text{几乎处处收敛} \implies \text{依概率收敛} \implies \text{依分布收敛} \]

\[\text{r阶矩收敛} \implies \text{依概率收敛} \implies \text{依分布收敛} \]

注:几乎处处收敛与r阶矩收敛无互推关系,需额外条件才能互推。


证明1:几乎处处收敛 \(\implies\) 依概率收敛

由几乎处处收敛的定义,\(P\left( \lim_{n \to \infty} |\xi_n - \xi| = 0 \right) = 1\),等价于:对任意\(\varepsilon>0\)\(|\xi_n - \xi| \geq \varepsilon\)无穷多次发生的概率为0,即

\[P\left( \bigcap_{N=1}^\infty \bigcup_{n=N}^\infty \{ |\xi_n - \xi| \geq \varepsilon \} \right) = 0 \]

由概率的连续性,\(\lim_{N \to \infty} P\left( \bigcup_{n=N}^\infty \{ |\xi_n - \xi| \geq \varepsilon \} \right) = 0\)
\(P(|\xi_N - \xi| \geq \varepsilon) \leq P\left( \bigcup_{n=N}^\infty \{ |\xi_n - \xi| \geq \varepsilon \} \right)\),因此\(N \to \infty\)时,\(P(|\xi_N - \xi| \geq \varepsilon) \to 0\),即\(\xi_n \stackrel{P}{\to} \xi\)


证明2:r阶矩收敛 \(\implies\) 依概率收敛

利用马尔可夫不等式:对非负随机变量\(X\)\(\forall a>0\),有\(P(X \geq a) \leq \frac{EX}{a}\)
对任意\(\varepsilon>0\)\(|\xi_n - \xi|^r\)是非负随机变量,因此:

\[P(|\xi_n - \xi| \geq \varepsilon) = P(|\xi_n - \xi|^r \geq \varepsilon^r) \leq \frac{E|\xi_n - \xi|^r}{\varepsilon^r} \]

由r阶矩收敛的定义,\(E|\xi_n - \xi|^r \to 0\),因此右边趋于0,即\(P(|\xi_n - \xi| \geq \varepsilon) \to 0\)\(\xi_n \stackrel{P}{\to} \xi\)

常用推论:若\(E\xi_n \to a\)\(Var(\xi_n) \to 0\),则\(\xi_n \stackrel{P}{\to} a\)
证明:均方误差\(E|\xi_n - a|^2 = Var(\xi_n) + (E\xi_n - a)^2 \to 0\),即均方收敛到\(a\),因此依概率收敛到\(a\)


证明3:依概率收敛 \(\implies\) 依分布收敛

目标:对\(F(x)\)的任意连续点\(x\),证明\(\lim_{n \to \infty} F_n(x) = F(x)\)

  1. 推导上界:对任意\(\varepsilon>0\)

    \[F_n(x) = P(\xi_n \leq x) = P(\xi_n \leq x, |\xi_n - \xi| < \varepsilon) + P(\xi_n \leq x, |\xi_n - \xi| \geq \varepsilon) \]

    第一项中,\(|\xi_n - \xi| < \varepsilon\)蕴含\(\xi < x + \varepsilon\),因此第一项\(\leq P(\xi < x + \varepsilon) = F(x + \varepsilon)\);第二项\(\leq P(|\xi_n - \xi| \geq \varepsilon)\)
    因此\(F_n(x) \leq F(x + \varepsilon) + P(|\xi_n - \xi| \geq \varepsilon)\),令\(n \to \infty\)得:

    \[\limsup_{n \to \infty} F_n(x) \leq F(x + \varepsilon) \]

  2. 推导下界

    \[F(x - \varepsilon) = P(\xi \leq x - \varepsilon) = P(\xi \leq x - \varepsilon, |\xi_n - \xi| < \varepsilon) + P(\xi \leq x - \varepsilon, |\xi_n - \xi| \geq \varepsilon) \]

    第一项中,\(|\xi_n - \xi| < \varepsilon\)蕴含\(\xi_n < x\),因此第一项\(\leq P(\xi_n \leq x) = F_n(x)\);第二项\(\leq P(|\xi_n - \xi| \geq \varepsilon)\)
    因此\(F(x - \varepsilon) \leq F_n(x) + P(|\xi_n - \xi| \geq \varepsilon)\),令\(n \to \infty\)得:

    \[\liminf_{n \to \infty} F_n(x) \geq F(x - \varepsilon) \]

  3. 取极限
    \(x\)\(F(x)\)的连续点,令\(\varepsilon \to 0^+\),则\(F(x-\varepsilon) \to F(x)\)\(F(x+\varepsilon) \to F(x)\),因此\(\lim_{n \to \infty} F_n(x) = F(x)\),即\(\xi_n \stackrel{L}{\to} \xi\)


2.3 收敛性的核心补充性质

  1. 连续映射定理:若\(\xi_n \stackrel{P}{\to} c\)(或\(a.e.\)),函数\(\varphi(x)\)\(x=c\)处连续,则\(\varphi(\xi_n) \stackrel{P}{\to} \varphi(c)\)(或\(a.e.\))。
    证明:\(\varphi\)\(c\)连续,故对\(\forall \varepsilon>0\)\(\exists \delta>0\),当\(|x-c|<\delta\)\(|\varphi(x)-\varphi(c)|<\varepsilon\)。因此\(P(|\varphi(\xi_n)-\varphi(c)| \geq \varepsilon) \leq P(|\xi_n - c| \geq \delta) \to 0\),得证。

  2. 常数的收敛等价性\(\xi_n \stackrel{P}{\to} c\)的充要条件是\(\xi_n \stackrel{L}{\to} c\)
    证明:必要性已由依概率收敛推出依分布收敛;充分性:常数\(c\)的分布是退化分布\(F(x)=I\{x \geq c\}\),对任意\(\varepsilon>0\)

    \[P(|\xi_n - c| \geq \varepsilon) = P(\xi_n \leq c-\varepsilon) + P(\xi_n \geq c+\varepsilon) = F_n(c-\varepsilon) + 1 - F_n(c+\varepsilon-0) \]

    由依分布收敛,\(F_n(c-\varepsilon) \to 0\)\(F_n(c+\varepsilon) \to 1\),因此上式趋于0,即\(\xi_n \stackrel{P}{\to} c\)

  3. 几乎处处收敛的充分条件(Borel-Cantelli引理):若对\(\forall \varepsilon>0\)\(\sum_{n=1}^\infty P(|\xi_n - \xi| \geq \varepsilon)\)收敛,则\(\xi_n \to \xi \ (a.e.)\)
    证明:由Borel-Cantelli引理,级数收敛则\(|\xi_n - \xi| \geq \varepsilon\)无穷多次发生的概率为0,因此\(\lim_{n \to \infty} |\xi_n - \xi| = 0\)以概率1成立。


三、核心渐近定理与证明

3.1 Slutsky定理(斯卢茨基定理)

Slutsky定理是大样本理论的核心工具,用于处理“依分布收敛的随机序列+依概率收敛的常数序列”的极限分布问题。

定理内容

\(n \to +\infty\)时,若\(\xi_n \stackrel{L}{\to} \xi\)\(\eta_n \stackrel{P}{\to} c\)\(c\)为常数),则:

  1. \(\xi_n + \eta_n \stackrel{L}{\to} \xi + c\)
  2. \(\xi_n \eta_n \stackrel{L}{\to} c\xi\)
  3. \(\eta_n^{-1} \xi_n \stackrel{L}{\to} c^{-1}\xi \ (c \neq 0)\)

常用推论(去0律/去1律)

  • 去0律:若\(\eta_n \stackrel{P}{\to} 0\),则\(\xi_n + \eta_n \stackrel{L}{\to} \xi\)
  • 去1律:若\(\eta_n \stackrel{P}{\to} 1\),则\(\xi_n \eta_n \stackrel{L}{\to} \xi\)
  • 线性推论:若\(\xi_n \stackrel{L}{\to} \xi\)\(a_n \stackrel{P}{\to} a\)\(b_n \stackrel{P}{\to} b\),则\(a_n \xi_n + b_n \stackrel{L}{\to} a\xi + b\)

详细证明(以\(\xi_n + \eta_n \stackrel{L}{\to} \xi + c\)为例)

\(\xi + c\)的分布函数为\(F(x - c)\),目标是对\(F(x - c)\)的任意连续点\(x\),证明\(\lim_{n \to \infty} P(\xi_n + \eta_n \leq x) = F(x - c)\)

  1. 事件拆分:因\(\eta_n \stackrel{P}{\to} c\),对\(\forall \varepsilon>0\)\(\exists \delta_n \to 0\),当n充分大时,\(P(|\eta_n - c| \geq \varepsilon) \leq \delta_n\)。定义事件\(A = \{ |\eta_n - c| < \varepsilon \}\),则\(P(A) \geq 1 - \delta_n\)\(P(\overline{A}) \leq \delta_n\)
    \(A\)上有不等式:\(\xi_n + c - \varepsilon \leq \xi_n + \eta_n \leq \xi_n + c + \varepsilon\)

  2. 上界推导:

    \[\begin{align*} P(\xi_n + \eta_n \leq x) &= P(A \cap \{ \xi_n + \eta_n \leq x \}) + P(\overline{A} \cap \{ \xi_n + \eta_n \leq x \}) \\ &\leq P(A \cap \{ \xi_n + c - \varepsilon \leq x \}) + P(\overline{A}) \\ &\leq P(\xi_n \leq x - c + \varepsilon) + \delta_n = F_n(x - c + \varepsilon) + \delta_n \end{align*} \]

    \(n \to \infty\),得\(\limsup_{n \to \infty} P(\xi_n + \eta_n \leq x) \leq F(x - c + \varepsilon)\)

  3. 下界推导:

    \[\begin{align*} P(\xi_n + \eta_n \leq x) &\geq P(A \cap \{ \xi_n + c + \varepsilon \leq x \}) \\ &= P(\xi_n \leq x - c - \varepsilon) - P(\overline{A} \cap \{ \xi_n + c + \varepsilon \leq x \}) \\ &\geq F_n(x - c - \varepsilon) - \delta_n \end{align*} \]

    \(n \to \infty\),得\(\liminf_{n \to \infty} P(\xi_n + \eta_n \leq x) \geq F(x - c - \varepsilon)\)

  4. 取极限:
    \(x\)\(F(x - c)\)的连续点,令\(\varepsilon \to 0^+\),得\(\lim_{n \to \infty} P(\xi_n + \eta_n \leq x) = F(x - c)\),即\(\xi_n + \eta_n \stackrel{L}{\to} \xi + c\)


应用案例:t分布的渐近正态性

\(X_1,\dots,X_n\)独立同分布,\(E(X_1)=0\)\(Var(X_1)=\sigma^2\),证明\(t_n = \frac{\sqrt{n}\bar{X}}{\sqrt{\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2}} \stackrel{L}{\to} N(0,1)\)

证明

  1. 分子:由中心极限定理,\(\frac{\sqrt{n}\bar{X}}{\sigma} \stackrel{L}{\to} Z \sim N(0,1)\)
  2. 分母:样本方差\(S^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2 = \frac{1}{n}\sum X_i^2 - \bar{X}^2\)。由大数定律,\(\frac{1}{n}\sum X_i^2 \stackrel{P}{\to} E X_1^2 = \sigma^2\)\(\bar{X} \stackrel{P}{\to} 0\),因此\(S^2 \stackrel{P}{\to} \sigma^2\)
    \(\frac{1}{n-1}\sum (X_i - \bar{X})^2 = \frac{n}{n-1}S^2 \stackrel{P}{\to} \sigma^2\),由连续映射定理,\(\sqrt{\frac{1}{n-1}\sum (X_i - \bar{X})^2} \stackrel{P}{\to} \sigma\)
  3. 改写\(t_n\)

    \[t_n = \frac{\sqrt{n}\bar{X}}{\sigma} \cdot \frac{\sigma}{\sqrt{\frac{1}{n-1}\sum (X_i - \bar{X})^2}} \cdot \sqrt{\frac{n-1}{n}} \]

    其中\(\frac{\sigma}{\sqrt{\frac{1}{n-1}\sum (X_i - \bar{X})^2}} \stackrel{P}{\to} 1\)\(\sqrt{\frac{n-1}{n}} \to 1\),由Slutsky定理的去1律,\(t_n \stackrel{L}{\to} Z \sim N(0,1)\)

3.2 Delta方法(定理5.3.2)

Delta方法用于求解非线性函数的渐近分布,是Slutsky定理的重要延伸,解决了“已知估计量的渐近正态性,求其函数的渐近分布”的核心问题。

定理内容

\(n \to +\infty\)时,设数列\(a_n \to \infty\),随机变量\(\eta_n = a_n(\xi_n - b) \stackrel{L}{\to} Z\);函数\(f(x)\)\(x=b\)处二阶连续可导,则:

  1. \(\xi_n \stackrel{P}{\to} b\)
  2. \(f'(b) \neq 0\),则\(a_n [f(\xi_n) - f(b)] \stackrel{L}{\to} f'(b) Z\)
  3. \(f'(b) = 0\)\(f''(b) \neq 0\),则\(a_n^2 [f(\xi_n) - f(b)] \stackrel{L}{\to} \frac{1}{2} Z^T f''(b) Z\)(一维为\(\frac{1}{2}f''(b) Z^2\))。

详细证明

  1. 证明(1):\(\xi_n \stackrel{P}{\to} b\)
    \(\xi_n - b = a_n^{-1} \cdot a_n(\xi_n - b) = a_n^{-1} \eta_n\)
    \(a_n \to \infty\),故\(a_n^{-1} \stackrel{P}{\to} 0\);又\(\eta_n \stackrel{L}{\to} Z\),由Slutsky定理,\(a_n^{-1} \eta_n \stackrel{L}{\to} 0 \cdot Z = 0\)
    依分布收敛到常数等价于依概率收敛到常数,因此\(\xi_n - b \stackrel{P}{\to} 0\),即\(\xi_n \stackrel{P}{\to} b\)

  2. 证明(2):一阶非零的情况
    由拉格朗日中值定理,\(f(\xi_n) - f(b) = f'(\tilde{\xi}_n)(\xi_n - b)\),其中\(\tilde{\xi}_n\)介于\(b\)\(\xi_n\)之间,故\(|\tilde{\xi}_n - b| \leq |\xi_n - b|\)
    由(1),\(\xi_n \stackrel{P}{\to} b\),故\(\tilde{\xi}_n \stackrel{P}{\to} b\);又\(f'(x)\)\(b\)处连续,因此\(f'(\tilde{\xi}_n) \stackrel{P}{\to} f'(b)\)
    因此\(a_n [f(\xi_n) - f(b)] = f'(\tilde{\xi}_n) \cdot a_n(\xi_n - b) = f'(\tilde{\xi}_n) \eta_n\)
    由Slutsky定理,\(f'(\tilde{\xi}_n) \eta_n \stackrel{L}{\to} f'(b) Z\),得证。

  3. 证明(3):一阶为零、二阶非零的情况
    由二阶泰勒展开,\(f(\xi_n) - f(b) = f'(b)(\xi_n - b) + \frac{1}{2}(\xi_n - b)^T f''(\xi_n^*)(\xi_n - b)\),其中\(\xi_n^*\)介于\(b\)\(\xi_n\)之间。
    \(f'(b)=0\),故\(f(\xi_n) - f(b) = \frac{1}{2}(\xi_n - b)^T f''(\xi_n^*)(\xi_n - b)\)
    两边乘\(a_n^2\)得:

    \[a_n^2 [f(\xi_n) - f(b)] = \frac{1}{2} \left[ a_n(\xi_n - b) \right]^T f''(\xi_n^*) \left[ a_n(\xi_n - b) \right] = \frac{1}{2} \eta_n^T f''(\xi_n^*) \eta_n \]

    由(1),\(\xi_n^* \stackrel{P}{\to} b\),故\(f''(\xi_n^*) \stackrel{P}{\to} f''(b)\);又\(\eta_n \stackrel{L}{\to} Z\),由Slutsky定理,\(\eta_n^T f''(\xi_n^*) \eta_n \stackrel{L}{\to} Z^T f''(b) Z\),因此\(a_n^2 [f(\xi_n) - f(b)] \stackrel{L}{\to} \frac{1}{2} Z^T f''(b) Z\)


四、随机阶(\(o_p\)\(O_p\)

随机阶是大样本理论的简化符号工具,类比普通数列的\(o\)\(O\)符号,用于描述随机序列的收敛速度与有界性。

4.1 定义

符号 定义 特殊情况
\(o_p(c_n)\)(依概率无穷小) \(\frac{\xi_n}{c_n} \stackrel{P}{\to} 0\),则记\(\xi_n = o_p(c_n)\) \(c_n=1\)时,\(\xi_n = o_p(1) \iff \xi_n \stackrel{P}{\to} 0\)
\(O_p(C_n)\)(依概率有界) 若对\(\forall \varepsilon>0\)\(\exists K_\varepsilon, N_\varepsilon\),当\(n \geq N_\varepsilon\)时,\(P\left( \left| \frac{\xi_n}{C_n} \right| \leq K_\varepsilon \right) \geq 1 - \varepsilon\),则记\(\xi_n = O_p(C_n)\) \(C_n=1\)时,\(\xi_n = O_p(1)\)称为随机有界

4.2 核心性质

  1. 运算性质(与普通数列阶完全一致):
    • \(o_p(c_n) = c_n o_p(1)\)\(O_p(C_n) = C_n O_p(1)\)
    • \(O_p(1) o_p(1) = o_p(1)\)\(O_p(1) + o_p(1) = O_p(1)\)
    • \(o_p(1) + o_p(1) = o_p(1)\)\(O_p(a_n) O_p(b_n) = O_p(a_n b_n)\)
  2. 期望性质:\(E[o_p(1)] = o(1)\)\(E[o_p(n^{-k})] = o(n^{-k})\)
  3. 依分布收敛与随机有界:若\(\xi_n \stackrel{L}{\to} \xi\),则\(\xi_n = O_p(1)\)
    证明:对\(\forall \varepsilon>0\),取\(K_\varepsilon\)使得\(P(|\xi| \leq K_\varepsilon) \geq 1 - \varepsilon/2\);由依分布收敛,\(\exists N_\varepsilon\),当\(n \geq N_\varepsilon\)时,\(P(|\xi_n| \leq K_\varepsilon) \geq 1 - \varepsilon\),符合\(O_p(1)\)的定义。

五、核心知识点汇总表

表1 四种收敛性核心对比

收敛类型 定义核心 强弱等级 核心应用场景 关键性质
几乎处处收敛(a.s.) 以概率1点点收敛 最强 强相合性、大数定律 推出依概率收敛;连续映射保持收敛性
r阶矩收敛 偏差的r阶矩趋于0 次强 均方误差分析、估计量精度 推出依概率收敛;r越大要求越严格
依概率收敛(P) 偏差超阈值的概率趋于0 中等 估计量相合性、Slutsky定理 推出依分布收敛;常数的依分布收敛等价于依概率收敛
依分布收敛(L/d) 分布函数逐点收敛(连续点) 最弱 渐近正态性、大样本推断 仅对分布收敛,不要求随机变量本身接近;依分布收敛序列必随机有界

表2 核心渐近定理汇总

定理名称 核心条件 核心结论 核心用途
Slutsky定理 \(\xi_n \stackrel{L}{\to} \xi\)\(\eta_n \stackrel{P}{\to} c\)(常数) 和、积、商的极限分布可拆分计算 处理标准化统计量的极限分布,如t分布渐近正态性
Delta方法 \(a_n(\xi_n - b) \stackrel{L}{\to} Z\)\(f\)\(b\)处可导 给出\(f(\xi_n)\)的渐近分布 求解非线性估计量的渐近正态性,如 odds ratio、相关系数的大样本分布
Borel-Cantelli引理 \(\sum_{n=1}^\infty P(|\xi_n - \xi| \geq \varepsilon) < \infty\) \(\xi_n \to \xi \ (a.s.)\) 证明强相合性、强大数定律

表3 随机阶符号汇总

符号 定义 核心含义 常用运算规则
\(o_p(1)\) \(\xi_n \stackrel{P}{\to} 0\) 依概率无穷小 \(o_p(1)+o_p(1)=o_p(1)\)\(O_p(1)o_p(1)=o_p(1)\)
\(O_p(1)\) 随机有界 概率意义下有界,不随n发散 \(O_p(1)+O_p(1)=O_p(1)\)\(O_p(1)O_p(1)=O_p(1)\)
\(o_p(n^{-k})\) \(n^k \xi_n \stackrel{P}{\to} 0\) 收敛速度快于\(n^{-k}\) \(o_p(n^{-k})o_p(n^{-m})=o_p(n^{-(k+m)})\)
\(O_p(n^{-k})\) \(n^k \xi_n = O_p(1)\) 收敛速度与\(n^{-k}\)相当 \(O_p(n^{-k})O_p(n^{-m})=O_p(n^{-(k+m)})\)

posted on 2026-02-25 08:20  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航