昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

1.1.4经验分布函数

经验分布函数 深度讲解

各位同学,今天我们来彻底吃透经验分布函数这个统计学的核心基础概念。我们从「为什么要做」到「是什么」,再到「性质如何、理论依据在哪、怎么用」,一步不落,把这个知识点讲透。


一、先搞懂核心动机:我们为什么需要经验分布函数?

统计学的核心问题,本质上是用有限的样本,推断未知的总体
我们先明确最基础的设定:

  • 我们关心的研究对象,是一个随机变量\(X\)(比如全国成年男性的身高、一批零件的寿命),它的总体分布由真实分布函数\(F(x)\)刻画,定义为:

    \[F(x) = P(X \leq x) \]

    这个\(F(x)\)是总体的固有属性,是我们最终想知道的东西,但它是完全未知的。
  • 我们能拿到的,只有从总体中独立、随机抽取的一组样本\(X_1,X_2,\dots,X_n\),它们和总体\(X\)独立同分布(i.i.d.),是我们手里唯一的信息。

那问题来了:怎么用手里的\(n\)个样本,去估计这个未知的\(F(x)\)
这里我们回到概率最本源的定义——频率估计概率:一个随机事件发生的概率,可以用大量重复试验中该事件发生的频率来逼近。
对于固定的\(x\),事件\(\{X \leq x\}\)发生的概率是\(F(x)\);那在我们的\(n\)个样本里,这个事件发生了多少次?就是「样本中取值小于等于\(x\)的个数」,我们把这个个数记为\(\nu_n\)
那这个事件发生的频率就是\(\frac{\nu_n}{n}\),这个频率,就是我们对总体概率\(F(x)\)的估计。
这就是经验分布函数的核心思想:用样本中事件发生的频率,估计总体中该事件发生的概率


二、经验分布函数的严格定义与数学表达

1. 基础定义

定义1.1.3\(X_1,X_2,\dots,X_n\)是来自总体\(X\)(总体分布函数为\(F(x)\))的独立同分布样本,对任意实数\(x\),经验分布函数\(F_n(x)\)定义为:

\[F_n(x) = \frac{1}{n} \cdot \nu_n \]

其中\(\nu_n\)是样本\(X_1,X_2,\dots,X_n\)中,满足\(X_i \leq x\)的样本个数。

2. 示性函数表达(核心!后续所有理论证明的基础)

为了把经验分布函数转化为我们熟悉的随机变量形式,我们引入示性函数\(I\{\cdot\}\)
示性函数是一个「事件指示器」,括号内的事件发生时,函数取1;事件不发生时,函数取0。即:

\[I\{X_i \leq x\} = \begin{cases} 1, & X_i \leq x \\ 0, & X_i > x \end{cases} \quad i=1,2,\dots,n\]

那我们把所有样本的示性函数加起来,\(\sum_{i=1}^n I\{X_i \leq x\}\) 是什么?
它正好就是「所有满足\(X_i \leq x\)的样本个数」,也就是我们定义里的\(\nu_n\)

把这个关系代入定义,我们就得到了经验分布函数的核心数学表达式

\[F_n(x) = \frac{1}{n} \sum_{i=1}^n I\{X_i \leq x\} \tag{1.1.7} \]

这个式子有多重要?它把经验分布函数,转化成了n个独立同分布随机变量的样本均值,这就是后续大数定律、中心极限定理能直接应用的关键。

3. 示性函数的分布特征

我们给每个示性函数起个名字,令\(Y_i = I\{X_i \leq x\}\),我们来分析\(Y_i\)的分布:

  • 对固定的\(x\)\(Y_i\)只有两个取值:0和1,因此\(Y_i\)服从0-1分布(伯努利分布)
  • 成功概率(取1的概率):\(P(Y_i=1) = P(X_i \leq x) = F(x)\)(因为\(X_i\)和总体同分布);
  • 失败概率(取0的概率):\(P(Y_i=0) = P(X_i > x) = 1-F(x)\)

由此,我们可以直接算出\(Y_i\)的期望和方差,这是后续定理证明的基础:

  • 期望:\(E(Y_i) = 1 \cdot P(Y_i=1) + 0 \cdot P(Y_i=0) = F(x)\)
  • 方差:\(Var(Y_i) = E(Y_i^2) - [E(Y_i)]^2 = 1^2 \cdot F(x) + 0^2 \cdot (1-F(x)) - [F(x)]^2 = F(x)[1-F(x)]\)

三、经验分布函数的基本性质

这里我要先强调一个核心结论:经验分布函数\(F_n(x)\)本身,就是一个完全合格的分布函数。它满足分布函数的所有充要条件,我们一条一条拆解:

1. 单调非降性

对任意的\(x_1 < x_2\),必有\(F_n(x_1) \leq F_n(x_2)\)
直观解释:当\(x\)变大时,\(\{X_i \leq x\}\)这个事件包含的样本只会变多、不会变少。比如\(x=2\)时有3个样本满足条件,\(x=3\)时至少有这3个样本满足条件,因此\(\nu_n\)不会减少,除以\(n\)\(F_n(x)\)自然不会下降。

2. 右连续性

对任意实数\(x_0\),有\(\lim_{x \to x_0^+} F_n(x) = F_n(x_0)\)
直观解释:从右侧趋近于\(x_0\)时,\(x\)无限接近\(x_0\)但始终大于\(x_0\),此时满足\(X_i \leq x\)的样本数,最终会和满足\(X_i \leq x_0\)的样本数完全一致,因此极限等于\(F_n(x_0)\),符合分布函数的右连续要求。

3. 极限规范性

  • \(\lim_{x \to -\infty} F_n(x) = 0\):当\(x\)趋向负无穷时,没有任何样本能小于等于负无穷,因此\(\nu_n=0\)\(F_n(x)=0\)
  • \(\lim_{x \to +\infty} F_n(x) = 1\):当\(x\)趋向正无穷时,所有样本都小于等于正无穷,因此\(\nu_n=n\)\(F_n(x)=\frac{n}{n}=1\)

4. 直观例子(彻底理解阶梯形态)

我们用一个具体的样本,把经验分布函数画出来,大家一眼就能懂:
设样本量\(n=5\),样本观测值为\(1,2,2,3,5\),我们来计算\(F_5(x)\)

  • \(x < 1\)时,无样本满足\(X_i \leq x\)\(F_5(x)=0\)
  • \(1 \leq x < 2\)时,1个样本(1)满足条件,\(F_5(x)=\frac{1}{5}=0.2\)
  • \(2 \leq x < 3\)时,3个样本(1,2,2)满足条件,\(F_5(x)=\frac{3}{5}=0.6\)
  • \(3 \leq x < 5\)时,4个样本(1,2,2,3)满足条件,\(F_5(x)=\frac{4}{5}=0.8\)
  • \(x \geq 5\)时,所有5个样本满足条件,\(F_5(x)=\frac{5}{5}=1\)

可以看到,经验分布函数是一个阶梯函数,在每个样本点处发生跳跃,单个样本点的跳跃高度为\(\frac{1}{n}\),若有\(k\)个样本重合,跳跃高度为\(\frac{k}{n}\)。样本量\(n\)越大,阶梯越密集,就越接近总体的真实分布函数\(F(x)\)


四、核心定理:经验分布函数的大样本性质

前面我们说,经验分布函数是总体分布函数的近似,那这个近似到底靠谱吗?靠谱到什么程度?下面这个定理,就给了我们严格的数学证明,也是经验分布函数的理论基石。

定理1.1.3\(X_1,X_2,\dots,X_n\)为i.i.d.样本,\(X_1 \sim F(x)\),则对任意实数\(x\),有:

  1. \(F_n(x) \to F(x) \quad (\text{a.e.})\),即几乎处处收敛(强相合性);
  2. \(\sqrt{n}[F_n(x) - F(x)] \stackrel{L}{\longrightarrow} N(0, F(x)[1-F(x)])\),即依分布收敛到正态分布(渐近正态性)。

注:\(\text{a.e.}\)表示几乎处处收敛,\(\stackrel{L}{\longrightarrow}\)表示依分布收敛。

1. 结论(1):强相合性证明与解读

证明过程

我们已经有\(F_n(x) = \frac{1}{n}\sum_{i=1}^n Y_i\),其中\(Y_i\)是独立同分布的0-1随机变量,且\(E(Y_i)=F(x)\)存在。

根据科尔莫戈罗夫强大数定律:对于独立同分布的随机变量序列,若其数学期望存在,则样本均值几乎处处收敛到总体均值,即:

\[\frac{1}{n}\sum_{i=1}^n [Y_i - E(Y_i)] \to 0 \quad (\text{a.e.}) \]

代入\(E(Y_i)=F(x)\),直接得到:

\[\frac{1}{n}\sum_{i=1}^n Y_i = F_n(x) \to E(Y_1) = F(x) \quad (\text{a.e.}) \]

证明完毕。

核心解读

这个结论告诉我们:当样本量\(n\)趋向无穷大时,除了概率为0的极端情况,经验分布函数\(F_n(x)\)会无限接近真实的总体分布函数\(F(x)\)
这就是我们能用\(F_n(x)\)估计\(F(x)\)的根本保证——它是\(F(x)\)的强相合估计,样本量越大,估计越准。

2. 结论(2):渐近正态性证明与解读

证明过程

我们依然基于\(Y_i\)的分布,应用林德伯格-莱维中心极限定理(独立同分布中心极限定理)
对于独立同分布的随机变量序列,若其期望\(\mu\)和方差\(\sigma^2>0\)存在,则当\(n \to \infty\)时,有:

\[\frac{\sum_{i=1}^n Y_i - n\mu}{\sqrt{n}\sigma} \stackrel{L}{\longrightarrow} N(0,1) \]

我们把\(Y_i\)的参数代入:\(\mu=E(Y_i)=F(x)\)\(\sigma^2=Var(Y_i)=F(x)[1-F(x)]\)\(\sigma=\sqrt{F(x)[1-F(x)]}\)
同时,\(\sum_{i=1}^n Y_i = nF_n(x)\),因此分子可改写为:

\[\sum_{i=1}^n Y_i - n\mu = nF_n(x) - nF(x) = n[F_n(x)-F(x)] \]

将分子分母代入中心极限定理,得到:

\[\frac{n[F_n(x)-F(x)]}{\sqrt{n} \cdot \sqrt{F(x)[1-F(x)]}} = \frac{\sqrt{n}[F_n(x)-F(x)]}{\sqrt{F(x)[1-F(x)]}} \stackrel{L}{\longrightarrow} N(0,1) \]

根据正态分布的性质:若\(Z \sim N(0,1)\),则\(\sigma Z \sim N(0,\sigma^2)\)。我们给上式两边同时乘以\(\sqrt{F(x)[1-F(x)]}\),最终得到:

\[\sqrt{n}[F_n(x)-F(x)] \stackrel{L}{\longrightarrow} N(0, F(x)[1-F(x)]) \]

证明完毕。

核心解读

这个结论解决了「估计的精度问题」:它告诉我们,当样本量足够大时,\(F_n(x)\)\(F(x)\)的估计误差,服从正态分布。
基于这个结论,我们可以直接对\(F(x)\)区间估计:大样本下,\(F(x)\)的95%置信区间为

\[F_n(x) \pm 1.96 \cdot \sqrt{\frac{F_n(x)[1-F_n(x)]}{n}} \]

(这里用\(F_n(x)\)代替未知的\(F(x)\),大样本下近似成立)
这就是经验分布函数在实际统计推断中的核心应用。


五、进阶补充:统计学的基本定理——格里文科定理

我们刚才的定理,是对每个固定的\(x\)\(F_n(x)\)收敛到\(F(x)\);而1933年提出的格里文科-坎泰利定理(Glivenko-Cantelli定理),给出了更强的结论:

\[\sup_{x \in \mathbb{R}} |F_n(x) - F(x)| \to 0 \quad (\text{a.e.}) \]

即:经验分布函数在整个实数轴上,对\(x\)一致地几乎处处收敛到总体分布函数。

这个定理被称为「统计学的基本定理」,它彻底证明了:只要样本量足够大,整个经验分布函数的曲线,会均匀地、无偏差地贴合总体真实分布函数,这也是整个非参数统计学的理论基石。


六、总结:经验分布函数的完整逻辑链

  1. 核心动机:总体分布\(F(x)\)未知,用样本频率估计总体概率,构造经验分布函数;
  2. 数学本质:经验分布函数是独立同分布0-1随机变量的样本均值,为大样本理论提供了基础;
  3. 基本性质:本身是合格的分布函数,满足单调非降、右连续、极限规范性,是阶梯型函数;
  4. 理论保证:强大数定律证明了它的强相合性,中心极限定理给出了它的渐近正态性,格里文科定理证明了一致收敛性;
  5. 应用价值:是总体分布的非参数估计的核心,也是经验似然、核密度估计、生存分析等诸多统计方法的基础。

posted on 2026-02-19 16:55  Indian_Mysore  阅读(1)  评论(0)    收藏  举报

导航