5.3.1估计量的渐近性质与随机序列收敛性
估计量的渐近性质与随机序列收敛性 详细讲解与证明
一、引言:为什么研究渐近性质
在数理统计中,估计量的小样本性质(如无偏性、有效性)往往难以验证或不满足,而渐近性质(大样本性质) 研究样本量\(n \to +\infty\)时估计量的收敛行为,是大样本统计推断(假设检验、置信区间构造)的核心基础。我们主要关注两类核心性质:
- 相合性:估计量是否依概率收敛到被估计的真实参数;
- 渐近正态性:标准化后的估计量是否依分布收敛到正态分布。
而这两类性质的数学基础,是随机变量序列的收敛性理论。
二、随机变量序列的四种收敛性
设\(\xi_n, \xi, \eta\)为随机变量,\(b,c\)为常数;\(\xi_n\)的分布函数为\(F_n(x)\),\(\xi\)的分布函数为\(F(x)\),讨论\(n \to +\infty\)时的收敛行为。
2.1 四种收敛性的定义与直观解释
| 收敛类型 | 数学定义 | 直观含义 |
|---|---|---|
| 依概率收敛 \(\xi_n \stackrel{P}{\to} \xi\) |
对\(\forall \varepsilon>0\),有\(\lim_{n \to \infty} P(|\xi_n - \xi| \geq \varepsilon) = 0\) | 当n充分大时,\(\xi_n\)与\(\xi\)的偏差超过任意小正数\(\varepsilon\)的概率趋近于0,是估计量相合性的数学定义 |
| r阶矩收敛 \(\xi_n \stackrel{r}{\to} \xi\) |
\(\lim_{n \to \infty} E|\xi_n - \xi|^r = 0\); 特别\(r=2\)时为均方收敛,等价于\(MSE(\xi_n) \to 0\) |
要求\(\xi_n\)与\(\xi\)的偏差的r阶矩趋于0,对随机变量的矩有严格要求,比依概率收敛更强 |
| 几乎处处收敛(以概率1收敛) \(\xi_n \to \xi \ (a.e./a.s.)\) |
\(P\left( \omega: \lim_{n \to \infty} \xi_n(\omega) = \xi(\omega) \right) = 1\) | 除了一个概率为0的零测集外,对所有样本点\(\omega\),数列\(\xi_n(\omega)\)都收敛到\(\xi(\omega)\),是最强的收敛性 |
| 依分布收敛 \(\xi_n \stackrel{L/d}{\to} \xi\) |
在\(F(x)\)的所有连续点\(x\)处,有\(\lim_{n \to \infty} F_n(x) = F(x)\) | 不要求随机变量本身的取值接近,仅要求其分布函数在极限下一致,是最弱的收敛性,对应渐近正态性的核心定义 |
2.2 收敛性的强弱关系与核心证明
四种收敛性的核心蕴含关系为:
注:几乎处处收敛与r阶矩收敛无互推关系,需额外条件才能互推。
证明1:几乎处处收敛 \(\implies\) 依概率收敛
由几乎处处收敛的定义,\(P\left( \lim_{n \to \infty} |\xi_n - \xi| = 0 \right) = 1\),等价于:对任意\(\varepsilon>0\),\(|\xi_n - \xi| \geq \varepsilon\)无穷多次发生的概率为0,即
由概率的连续性,\(\lim_{N \to \infty} P\left( \bigcup_{n=N}^\infty \{ |\xi_n - \xi| \geq \varepsilon \} \right) = 0\)。
而\(P(|\xi_N - \xi| \geq \varepsilon) \leq P\left( \bigcup_{n=N}^\infty \{ |\xi_n - \xi| \geq \varepsilon \} \right)\),因此\(N \to \infty\)时,\(P(|\xi_N - \xi| \geq \varepsilon) \to 0\),即\(\xi_n \stackrel{P}{\to} \xi\)。
证明2:r阶矩收敛 \(\implies\) 依概率收敛
利用马尔可夫不等式:对非负随机变量\(X\),\(\forall a>0\),有\(P(X \geq a) \leq \frac{EX}{a}\)。
对任意\(\varepsilon>0\),\(|\xi_n - \xi|^r\)是非负随机变量,因此:
由r阶矩收敛的定义,\(E|\xi_n - \xi|^r \to 0\),因此右边趋于0,即\(P(|\xi_n - \xi| \geq \varepsilon) \to 0\),\(\xi_n \stackrel{P}{\to} \xi\)。
常用推论:若\(E\xi_n \to a\)且\(Var(\xi_n) \to 0\),则\(\xi_n \stackrel{P}{\to} a\)。
证明:均方误差\(E|\xi_n - a|^2 = Var(\xi_n) + (E\xi_n - a)^2 \to 0\),即均方收敛到\(a\),因此依概率收敛到\(a\)。
证明3:依概率收敛 \(\implies\) 依分布收敛
目标:对\(F(x)\)的任意连续点\(x\),证明\(\lim_{n \to \infty} F_n(x) = F(x)\)。
-
推导上界:对任意\(\varepsilon>0\),
\[F_n(x) = P(\xi_n \leq x) = P(\xi_n \leq x, |\xi_n - \xi| < \varepsilon) + P(\xi_n \leq x, |\xi_n - \xi| \geq \varepsilon) \]第一项中,\(|\xi_n - \xi| < \varepsilon\)蕴含\(\xi < x + \varepsilon\),因此第一项\(\leq P(\xi < x + \varepsilon) = F(x + \varepsilon)\);第二项\(\leq P(|\xi_n - \xi| \geq \varepsilon)\)。
因此\(F_n(x) \leq F(x + \varepsilon) + P(|\xi_n - \xi| \geq \varepsilon)\),令\(n \to \infty\)得:\[\limsup_{n \to \infty} F_n(x) \leq F(x + \varepsilon) \] -
推导下界:
\[F(x - \varepsilon) = P(\xi \leq x - \varepsilon) = P(\xi \leq x - \varepsilon, |\xi_n - \xi| < \varepsilon) + P(\xi \leq x - \varepsilon, |\xi_n - \xi| \geq \varepsilon) \]第一项中,\(|\xi_n - \xi| < \varepsilon\)蕴含\(\xi_n < x\),因此第一项\(\leq P(\xi_n \leq x) = F_n(x)\);第二项\(\leq P(|\xi_n - \xi| \geq \varepsilon)\)。
因此\(F(x - \varepsilon) \leq F_n(x) + P(|\xi_n - \xi| \geq \varepsilon)\),令\(n \to \infty\)得:\[\liminf_{n \to \infty} F_n(x) \geq F(x - \varepsilon) \] -
取极限:
因\(x\)是\(F(x)\)的连续点,令\(\varepsilon \to 0^+\),则\(F(x-\varepsilon) \to F(x)\),\(F(x+\varepsilon) \to F(x)\),因此\(\lim_{n \to \infty} F_n(x) = F(x)\),即\(\xi_n \stackrel{L}{\to} \xi\)。
2.3 收敛性的核心补充性质
-
连续映射定理:若\(\xi_n \stackrel{P}{\to} c\)(或\(a.e.\)),函数\(\varphi(x)\)在\(x=c\)处连续,则\(\varphi(\xi_n) \stackrel{P}{\to} \varphi(c)\)(或\(a.e.\))。
证明:\(\varphi\)在\(c\)连续,故对\(\forall \varepsilon>0\),\(\exists \delta>0\),当\(|x-c|<\delta\)时\(|\varphi(x)-\varphi(c)|<\varepsilon\)。因此\(P(|\varphi(\xi_n)-\varphi(c)| \geq \varepsilon) \leq P(|\xi_n - c| \geq \delta) \to 0\),得证。 -
常数的收敛等价性:\(\xi_n \stackrel{P}{\to} c\)的充要条件是\(\xi_n \stackrel{L}{\to} c\)。
证明:必要性已由依概率收敛推出依分布收敛;充分性:常数\(c\)的分布是退化分布\(F(x)=I\{x \geq c\}\),对任意\(\varepsilon>0\),\[P(|\xi_n - c| \geq \varepsilon) = P(\xi_n \leq c-\varepsilon) + P(\xi_n \geq c+\varepsilon) = F_n(c-\varepsilon) + 1 - F_n(c+\varepsilon-0) \]由依分布收敛,\(F_n(c-\varepsilon) \to 0\),\(F_n(c+\varepsilon) \to 1\),因此上式趋于0,即\(\xi_n \stackrel{P}{\to} c\)。
-
几乎处处收敛的充分条件(Borel-Cantelli引理):若对\(\forall \varepsilon>0\),\(\sum_{n=1}^\infty P(|\xi_n - \xi| \geq \varepsilon)\)收敛,则\(\xi_n \to \xi \ (a.e.)\)。
证明:由Borel-Cantelli引理,级数收敛则\(|\xi_n - \xi| \geq \varepsilon\)无穷多次发生的概率为0,因此\(\lim_{n \to \infty} |\xi_n - \xi| = 0\)以概率1成立。
三、核心渐近定理与证明
3.1 Slutsky定理(斯卢茨基定理)
Slutsky定理是大样本理论的核心工具,用于处理“依分布收敛的随机序列+依概率收敛的常数序列”的极限分布问题。
定理内容
当\(n \to +\infty\)时,若\(\xi_n \stackrel{L}{\to} \xi\),\(\eta_n \stackrel{P}{\to} c\)(\(c\)为常数),则:
- \(\xi_n + \eta_n \stackrel{L}{\to} \xi + c\)
- \(\xi_n \eta_n \stackrel{L}{\to} c\xi\)
- \(\eta_n^{-1} \xi_n \stackrel{L}{\to} c^{-1}\xi \ (c \neq 0)\)
常用推论(去0律/去1律):
- 去0律:若\(\eta_n \stackrel{P}{\to} 0\),则\(\xi_n + \eta_n \stackrel{L}{\to} \xi\)
- 去1律:若\(\eta_n \stackrel{P}{\to} 1\),则\(\xi_n \eta_n \stackrel{L}{\to} \xi\)
- 线性推论:若\(\xi_n \stackrel{L}{\to} \xi\),\(a_n \stackrel{P}{\to} a\),\(b_n \stackrel{P}{\to} b\),则\(a_n \xi_n + b_n \stackrel{L}{\to} a\xi + b\)
详细证明(以\(\xi_n + \eta_n \stackrel{L}{\to} \xi + c\)为例)
\(\xi + c\)的分布函数为\(F(x - c)\),目标是对\(F(x - c)\)的任意连续点\(x\),证明\(\lim_{n \to \infty} P(\xi_n + \eta_n \leq x) = F(x - c)\)。
-
事件拆分:因\(\eta_n \stackrel{P}{\to} c\),对\(\forall \varepsilon>0\),\(\exists \delta_n \to 0\),当n充分大时,\(P(|\eta_n - c| \geq \varepsilon) \leq \delta_n\)。定义事件\(A = \{ |\eta_n - c| < \varepsilon \}\),则\(P(A) \geq 1 - \delta_n\),\(P(\overline{A}) \leq \delta_n\)。
在\(A\)上有不等式:\(\xi_n + c - \varepsilon \leq \xi_n + \eta_n \leq \xi_n + c + \varepsilon\)。 -
上界推导:
\[\begin{align*} P(\xi_n + \eta_n \leq x) &= P(A \cap \{ \xi_n + \eta_n \leq x \}) + P(\overline{A} \cap \{ \xi_n + \eta_n \leq x \}) \\ &\leq P(A \cap \{ \xi_n + c - \varepsilon \leq x \}) + P(\overline{A}) \\ &\leq P(\xi_n \leq x - c + \varepsilon) + \delta_n = F_n(x - c + \varepsilon) + \delta_n \end{align*} \]令\(n \to \infty\),得\(\limsup_{n \to \infty} P(\xi_n + \eta_n \leq x) \leq F(x - c + \varepsilon)\)。
-
下界推导:
\[\begin{align*} P(\xi_n + \eta_n \leq x) &\geq P(A \cap \{ \xi_n + c + \varepsilon \leq x \}) \\ &= P(\xi_n \leq x - c - \varepsilon) - P(\overline{A} \cap \{ \xi_n + c + \varepsilon \leq x \}) \\ &\geq F_n(x - c - \varepsilon) - \delta_n \end{align*} \]令\(n \to \infty\),得\(\liminf_{n \to \infty} P(\xi_n + \eta_n \leq x) \geq F(x - c - \varepsilon)\)。
-
取极限:
因\(x\)是\(F(x - c)\)的连续点,令\(\varepsilon \to 0^+\),得\(\lim_{n \to \infty} P(\xi_n + \eta_n \leq x) = F(x - c)\),即\(\xi_n + \eta_n \stackrel{L}{\to} \xi + c\)。
应用案例:t分布的渐近正态性
设\(X_1,\dots,X_n\)独立同分布,\(E(X_1)=0\),\(Var(X_1)=\sigma^2\),证明\(t_n = \frac{\sqrt{n}\bar{X}}{\sqrt{\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2}} \stackrel{L}{\to} N(0,1)\)。
证明:
- 分子:由中心极限定理,\(\frac{\sqrt{n}\bar{X}}{\sigma} \stackrel{L}{\to} Z \sim N(0,1)\)。
- 分母:样本方差\(S^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2 = \frac{1}{n}\sum X_i^2 - \bar{X}^2\)。由大数定律,\(\frac{1}{n}\sum X_i^2 \stackrel{P}{\to} E X_1^2 = \sigma^2\),\(\bar{X} \stackrel{P}{\to} 0\),因此\(S^2 \stackrel{P}{\to} \sigma^2\)。
而\(\frac{1}{n-1}\sum (X_i - \bar{X})^2 = \frac{n}{n-1}S^2 \stackrel{P}{\to} \sigma^2\),由连续映射定理,\(\sqrt{\frac{1}{n-1}\sum (X_i - \bar{X})^2} \stackrel{P}{\to} \sigma\)。 - 改写\(t_n\):\[t_n = \frac{\sqrt{n}\bar{X}}{\sigma} \cdot \frac{\sigma}{\sqrt{\frac{1}{n-1}\sum (X_i - \bar{X})^2}} \cdot \sqrt{\frac{n-1}{n}} \]其中\(\frac{\sigma}{\sqrt{\frac{1}{n-1}\sum (X_i - \bar{X})^2}} \stackrel{P}{\to} 1\),\(\sqrt{\frac{n-1}{n}} \to 1\),由Slutsky定理的去1律,\(t_n \stackrel{L}{\to} Z \sim N(0,1)\)。
3.2 Delta方法(定理5.3.2)
Delta方法用于求解非线性函数的渐近分布,是Slutsky定理的重要延伸,解决了“已知估计量的渐近正态性,求其函数的渐近分布”的核心问题。
定理内容
当\(n \to +\infty\)时,设数列\(a_n \to \infty\),随机变量\(\eta_n = a_n(\xi_n - b) \stackrel{L}{\to} Z\);函数\(f(x)\)在\(x=b\)处二阶连续可导,则:
- \(\xi_n \stackrel{P}{\to} b\);
- 若\(f'(b) \neq 0\),则\(a_n [f(\xi_n) - f(b)] \stackrel{L}{\to} f'(b) Z\);
- 若\(f'(b) = 0\),\(f''(b) \neq 0\),则\(a_n^2 [f(\xi_n) - f(b)] \stackrel{L}{\to} \frac{1}{2} Z^T f''(b) Z\)(一维为\(\frac{1}{2}f''(b) Z^2\))。
详细证明
-
证明(1):\(\xi_n \stackrel{P}{\to} b\)
\(\xi_n - b = a_n^{-1} \cdot a_n(\xi_n - b) = a_n^{-1} \eta_n\)。
因\(a_n \to \infty\),故\(a_n^{-1} \stackrel{P}{\to} 0\);又\(\eta_n \stackrel{L}{\to} Z\),由Slutsky定理,\(a_n^{-1} \eta_n \stackrel{L}{\to} 0 \cdot Z = 0\)。
依分布收敛到常数等价于依概率收敛到常数,因此\(\xi_n - b \stackrel{P}{\to} 0\),即\(\xi_n \stackrel{P}{\to} b\)。 -
证明(2):一阶非零的情况
由拉格朗日中值定理,\(f(\xi_n) - f(b) = f'(\tilde{\xi}_n)(\xi_n - b)\),其中\(\tilde{\xi}_n\)介于\(b\)和\(\xi_n\)之间,故\(|\tilde{\xi}_n - b| \leq |\xi_n - b|\)。
由(1),\(\xi_n \stackrel{P}{\to} b\),故\(\tilde{\xi}_n \stackrel{P}{\to} b\);又\(f'(x)\)在\(b\)处连续,因此\(f'(\tilde{\xi}_n) \stackrel{P}{\to} f'(b)\)。
因此\(a_n [f(\xi_n) - f(b)] = f'(\tilde{\xi}_n) \cdot a_n(\xi_n - b) = f'(\tilde{\xi}_n) \eta_n\)。
由Slutsky定理,\(f'(\tilde{\xi}_n) \eta_n \stackrel{L}{\to} f'(b) Z\),得证。 -
证明(3):一阶为零、二阶非零的情况
由二阶泰勒展开,\(f(\xi_n) - f(b) = f'(b)(\xi_n - b) + \frac{1}{2}(\xi_n - b)^T f''(\xi_n^*)(\xi_n - b)\),其中\(\xi_n^*\)介于\(b\)和\(\xi_n\)之间。
因\(f'(b)=0\),故\(f(\xi_n) - f(b) = \frac{1}{2}(\xi_n - b)^T f''(\xi_n^*)(\xi_n - b)\)。
两边乘\(a_n^2\)得:\[a_n^2 [f(\xi_n) - f(b)] = \frac{1}{2} \left[ a_n(\xi_n - b) \right]^T f''(\xi_n^*) \left[ a_n(\xi_n - b) \right] = \frac{1}{2} \eta_n^T f''(\xi_n^*) \eta_n \]由(1),\(\xi_n^* \stackrel{P}{\to} b\),故\(f''(\xi_n^*) \stackrel{P}{\to} f''(b)\);又\(\eta_n \stackrel{L}{\to} Z\),由Slutsky定理,\(\eta_n^T f''(\xi_n^*) \eta_n \stackrel{L}{\to} Z^T f''(b) Z\),因此\(a_n^2 [f(\xi_n) - f(b)] \stackrel{L}{\to} \frac{1}{2} Z^T f''(b) Z\)。
四、随机阶(\(o_p\)与\(O_p\))
随机阶是大样本理论的简化符号工具,类比普通数列的\(o\)、\(O\)符号,用于描述随机序列的收敛速度与有界性。
4.1 定义
| 符号 | 定义 | 特殊情况 |
|---|---|---|
| \(o_p(c_n)\)(依概率无穷小) | 若\(\frac{\xi_n}{c_n} \stackrel{P}{\to} 0\),则记\(\xi_n = o_p(c_n)\) | \(c_n=1\)时,\(\xi_n = o_p(1) \iff \xi_n \stackrel{P}{\to} 0\) |
| \(O_p(C_n)\)(依概率有界) | 若对\(\forall \varepsilon>0\),\(\exists K_\varepsilon, N_\varepsilon\),当\(n \geq N_\varepsilon\)时,\(P\left( \left| \frac{\xi_n}{C_n} \right| \leq K_\varepsilon \right) \geq 1 - \varepsilon\),则记\(\xi_n = O_p(C_n)\) | \(C_n=1\)时,\(\xi_n = O_p(1)\)称为随机有界 |
4.2 核心性质
- 运算性质(与普通数列阶完全一致):
- \(o_p(c_n) = c_n o_p(1)\),\(O_p(C_n) = C_n O_p(1)\)
- \(O_p(1) o_p(1) = o_p(1)\),\(O_p(1) + o_p(1) = O_p(1)\)
- \(o_p(1) + o_p(1) = o_p(1)\),\(O_p(a_n) O_p(b_n) = O_p(a_n b_n)\)
- 期望性质:\(E[o_p(1)] = o(1)\),\(E[o_p(n^{-k})] = o(n^{-k})\)
- 依分布收敛与随机有界:若\(\xi_n \stackrel{L}{\to} \xi\),则\(\xi_n = O_p(1)\)。
证明:对\(\forall \varepsilon>0\),取\(K_\varepsilon\)使得\(P(|\xi| \leq K_\varepsilon) \geq 1 - \varepsilon/2\);由依分布收敛,\(\exists N_\varepsilon\),当\(n \geq N_\varepsilon\)时,\(P(|\xi_n| \leq K_\varepsilon) \geq 1 - \varepsilon\),符合\(O_p(1)\)的定义。
五、核心知识点汇总表
表1 四种收敛性核心对比
| 收敛类型 | 定义核心 | 强弱等级 | 核心应用场景 | 关键性质 |
|---|---|---|---|---|
| 几乎处处收敛(a.s.) | 以概率1点点收敛 | 最强 | 强相合性、大数定律 | 推出依概率收敛;连续映射保持收敛性 |
| r阶矩收敛 | 偏差的r阶矩趋于0 | 次强 | 均方误差分析、估计量精度 | 推出依概率收敛;r越大要求越严格 |
| 依概率收敛(P) | 偏差超阈值的概率趋于0 | 中等 | 估计量相合性、Slutsky定理 | 推出依分布收敛;常数的依分布收敛等价于依概率收敛 |
| 依分布收敛(L/d) | 分布函数逐点收敛(连续点) | 最弱 | 渐近正态性、大样本推断 | 仅对分布收敛,不要求随机变量本身接近;依分布收敛序列必随机有界 |
表2 核心渐近定理汇总
| 定理名称 | 核心条件 | 核心结论 | 核心用途 |
|---|---|---|---|
| Slutsky定理 | \(\xi_n \stackrel{L}{\to} \xi\),\(\eta_n \stackrel{P}{\to} c\)(常数) | 和、积、商的极限分布可拆分计算 | 处理标准化统计量的极限分布,如t分布渐近正态性 |
| Delta方法 | \(a_n(\xi_n - b) \stackrel{L}{\to} Z\),\(f\)在\(b\)处可导 | 给出\(f(\xi_n)\)的渐近分布 | 求解非线性估计量的渐近正态性,如 odds ratio、相关系数的大样本分布 |
| Borel-Cantelli引理 | \(\sum_{n=1}^\infty P(|\xi_n - \xi| \geq \varepsilon) < \infty\) | \(\xi_n \to \xi \ (a.s.)\) | 证明强相合性、强大数定律 |
表3 随机阶符号汇总
| 符号 | 定义 | 核心含义 | 常用运算规则 |
|---|---|---|---|
| \(o_p(1)\) | \(\xi_n \stackrel{P}{\to} 0\) | 依概率无穷小 | \(o_p(1)+o_p(1)=o_p(1)\);\(O_p(1)o_p(1)=o_p(1)\) |
| \(O_p(1)\) | 随机有界 | 概率意义下有界,不随n发散 | \(O_p(1)+O_p(1)=O_p(1)\);\(O_p(1)O_p(1)=O_p(1)\) |
| \(o_p(n^{-k})\) | \(n^k \xi_n \stackrel{P}{\to} 0\) | 收敛速度快于\(n^{-k}\) | \(o_p(n^{-k})o_p(n^{-m})=o_p(n^{-(k+m)})\) |
| \(O_p(n^{-k})\) | \(n^k \xi_n = O_p(1)\) | 收敛速度与\(n^{-k}\)相当 | \(O_p(n^{-k})O_p(n^{-m})=O_p(n^{-(k+m)})\) |
posted on 2026-02-25 08:20 Indian_Mysore 阅读(0) 评论(0) 收藏 举报
浙公网安备 33010602011771号