1.1.4经验分布函数
经验分布函数 深度讲解
各位同学,今天我们来彻底吃透经验分布函数这个统计学的核心基础概念。我们从「为什么要做」到「是什么」,再到「性质如何、理论依据在哪、怎么用」,一步不落,把这个知识点讲透。
一、先搞懂核心动机:我们为什么需要经验分布函数?
统计学的核心问题,本质上是用有限的样本,推断未知的总体。
我们先明确最基础的设定:
- 我们关心的研究对象,是一个随机变量\(X\)(比如全国成年男性的身高、一批零件的寿命),它的总体分布由真实分布函数\(F(x)\)刻画,定义为:\[F(x) = P(X \leq x) \]这个\(F(x)\)是总体的固有属性,是我们最终想知道的东西,但它是完全未知的。
- 我们能拿到的,只有从总体中独立、随机抽取的一组样本\(X_1,X_2,\dots,X_n\),它们和总体\(X\)独立同分布(i.i.d.),是我们手里唯一的信息。
那问题来了:怎么用手里的\(n\)个样本,去估计这个未知的\(F(x)\)?
这里我们回到概率最本源的定义——频率估计概率:一个随机事件发生的概率,可以用大量重复试验中该事件发生的频率来逼近。
对于固定的\(x\),事件\(\{X \leq x\}\)发生的概率是\(F(x)\);那在我们的\(n\)个样本里,这个事件发生了多少次?就是「样本中取值小于等于\(x\)的个数」,我们把这个个数记为\(\nu_n\)。
那这个事件发生的频率就是\(\frac{\nu_n}{n}\),这个频率,就是我们对总体概率\(F(x)\)的估计。
这就是经验分布函数的核心思想:用样本中事件发生的频率,估计总体中该事件发生的概率。
二、经验分布函数的严格定义与数学表达
1. 基础定义
定义1.1.3 设\(X_1,X_2,\dots,X_n\)是来自总体\(X\)(总体分布函数为\(F(x)\))的独立同分布样本,对任意实数\(x\),经验分布函数\(F_n(x)\)定义为:
其中\(\nu_n\)是样本\(X_1,X_2,\dots,X_n\)中,满足\(X_i \leq x\)的样本个数。
2. 示性函数表达(核心!后续所有理论证明的基础)
为了把经验分布函数转化为我们熟悉的随机变量形式,我们引入示性函数\(I\{\cdot\}\):
示性函数是一个「事件指示器」,括号内的事件发生时,函数取1;事件不发生时,函数取0。即:
那我们把所有样本的示性函数加起来,\(\sum_{i=1}^n I\{X_i \leq x\}\) 是什么?
它正好就是「所有满足\(X_i \leq x\)的样本个数」,也就是我们定义里的\(\nu_n\)!
把这个关系代入定义,我们就得到了经验分布函数的核心数学表达式:
这个式子有多重要?它把经验分布函数,转化成了n个独立同分布随机变量的样本均值,这就是后续大数定律、中心极限定理能直接应用的关键。
3. 示性函数的分布特征
我们给每个示性函数起个名字,令\(Y_i = I\{X_i \leq x\}\),我们来分析\(Y_i\)的分布:
- 对固定的\(x\),\(Y_i\)只有两个取值:0和1,因此\(Y_i\)服从0-1分布(伯努利分布);
- 成功概率(取1的概率):\(P(Y_i=1) = P(X_i \leq x) = F(x)\)(因为\(X_i\)和总体同分布);
- 失败概率(取0的概率):\(P(Y_i=0) = P(X_i > x) = 1-F(x)\)。
由此,我们可以直接算出\(Y_i\)的期望和方差,这是后续定理证明的基础:
- 期望:\(E(Y_i) = 1 \cdot P(Y_i=1) + 0 \cdot P(Y_i=0) = F(x)\)
- 方差:\(Var(Y_i) = E(Y_i^2) - [E(Y_i)]^2 = 1^2 \cdot F(x) + 0^2 \cdot (1-F(x)) - [F(x)]^2 = F(x)[1-F(x)]\)
三、经验分布函数的基本性质
这里我要先强调一个核心结论:经验分布函数\(F_n(x)\)本身,就是一个完全合格的分布函数。它满足分布函数的所有充要条件,我们一条一条拆解:
1. 单调非降性
对任意的\(x_1 < x_2\),必有\(F_n(x_1) \leq F_n(x_2)\)。
直观解释:当\(x\)变大时,\(\{X_i \leq x\}\)这个事件包含的样本只会变多、不会变少。比如\(x=2\)时有3个样本满足条件,\(x=3\)时至少有这3个样本满足条件,因此\(\nu_n\)不会减少,除以\(n\)后\(F_n(x)\)自然不会下降。
2. 右连续性
对任意实数\(x_0\),有\(\lim_{x \to x_0^+} F_n(x) = F_n(x_0)\)。
直观解释:从右侧趋近于\(x_0\)时,\(x\)无限接近\(x_0\)但始终大于\(x_0\),此时满足\(X_i \leq x\)的样本数,最终会和满足\(X_i \leq x_0\)的样本数完全一致,因此极限等于\(F_n(x_0)\),符合分布函数的右连续要求。
3. 极限规范性
- \(\lim_{x \to -\infty} F_n(x) = 0\):当\(x\)趋向负无穷时,没有任何样本能小于等于负无穷,因此\(\nu_n=0\),\(F_n(x)=0\);
- \(\lim_{x \to +\infty} F_n(x) = 1\):当\(x\)趋向正无穷时,所有样本都小于等于正无穷,因此\(\nu_n=n\),\(F_n(x)=\frac{n}{n}=1\)。
4. 直观例子(彻底理解阶梯形态)
我们用一个具体的样本,把经验分布函数画出来,大家一眼就能懂:
设样本量\(n=5\),样本观测值为\(1,2,2,3,5\),我们来计算\(F_5(x)\):
- 当\(x < 1\)时,无样本满足\(X_i \leq x\),\(F_5(x)=0\);
- 当\(1 \leq x < 2\)时,1个样本(1)满足条件,\(F_5(x)=\frac{1}{5}=0.2\);
- 当\(2 \leq x < 3\)时,3个样本(1,2,2)满足条件,\(F_5(x)=\frac{3}{5}=0.6\);
- 当\(3 \leq x < 5\)时,4个样本(1,2,2,3)满足条件,\(F_5(x)=\frac{4}{5}=0.8\);
- 当\(x \geq 5\)时,所有5个样本满足条件,\(F_5(x)=\frac{5}{5}=1\)。
可以看到,经验分布函数是一个阶梯函数,在每个样本点处发生跳跃,单个样本点的跳跃高度为\(\frac{1}{n}\),若有\(k\)个样本重合,跳跃高度为\(\frac{k}{n}\)。样本量\(n\)越大,阶梯越密集,就越接近总体的真实分布函数\(F(x)\)。
四、核心定理:经验分布函数的大样本性质
前面我们说,经验分布函数是总体分布函数的近似,那这个近似到底靠谱吗?靠谱到什么程度?下面这个定理,就给了我们严格的数学证明,也是经验分布函数的理论基石。
定理1.1.3 若\(X_1,X_2,\dots,X_n\)为i.i.d.样本,\(X_1 \sim F(x)\),则对任意实数\(x\),有:
- \(F_n(x) \to F(x) \quad (\text{a.e.})\),即几乎处处收敛(强相合性);
- \(\sqrt{n}[F_n(x) - F(x)] \stackrel{L}{\longrightarrow} N(0, F(x)[1-F(x)])\),即依分布收敛到正态分布(渐近正态性)。
注:\(\text{a.e.}\)表示几乎处处收敛,\(\stackrel{L}{\longrightarrow}\)表示依分布收敛。
1. 结论(1):强相合性证明与解读
证明过程
我们已经有\(F_n(x) = \frac{1}{n}\sum_{i=1}^n Y_i\),其中\(Y_i\)是独立同分布的0-1随机变量,且\(E(Y_i)=F(x)\)存在。
根据科尔莫戈罗夫强大数定律:对于独立同分布的随机变量序列,若其数学期望存在,则样本均值几乎处处收敛到总体均值,即:
代入\(E(Y_i)=F(x)\),直接得到:
证明完毕。
核心解读
这个结论告诉我们:当样本量\(n\)趋向无穷大时,除了概率为0的极端情况,经验分布函数\(F_n(x)\)会无限接近真实的总体分布函数\(F(x)\)。
这就是我们能用\(F_n(x)\)估计\(F(x)\)的根本保证——它是\(F(x)\)的强相合估计,样本量越大,估计越准。
2. 结论(2):渐近正态性证明与解读
证明过程
我们依然基于\(Y_i\)的分布,应用林德伯格-莱维中心极限定理(独立同分布中心极限定理):
对于独立同分布的随机变量序列,若其期望\(\mu\)和方差\(\sigma^2>0\)存在,则当\(n \to \infty\)时,有:
我们把\(Y_i\)的参数代入:\(\mu=E(Y_i)=F(x)\),\(\sigma^2=Var(Y_i)=F(x)[1-F(x)]\),\(\sigma=\sqrt{F(x)[1-F(x)]}\)。
同时,\(\sum_{i=1}^n Y_i = nF_n(x)\),因此分子可改写为:
将分子分母代入中心极限定理,得到:
根据正态分布的性质:若\(Z \sim N(0,1)\),则\(\sigma Z \sim N(0,\sigma^2)\)。我们给上式两边同时乘以\(\sqrt{F(x)[1-F(x)]}\),最终得到:
证明完毕。
核心解读
这个结论解决了「估计的精度问题」:它告诉我们,当样本量足够大时,\(F_n(x)\)与\(F(x)\)的估计误差,服从正态分布。
基于这个结论,我们可以直接对\(F(x)\)做区间估计:大样本下,\(F(x)\)的95%置信区间为
(这里用\(F_n(x)\)代替未知的\(F(x)\),大样本下近似成立)
这就是经验分布函数在实际统计推断中的核心应用。
五、进阶补充:统计学的基本定理——格里文科定理
我们刚才的定理,是对每个固定的\(x\),\(F_n(x)\)收敛到\(F(x)\);而1933年提出的格里文科-坎泰利定理(Glivenko-Cantelli定理),给出了更强的结论:
即:经验分布函数在整个实数轴上,对\(x\)一致地几乎处处收敛到总体分布函数。
这个定理被称为「统计学的基本定理」,它彻底证明了:只要样本量足够大,整个经验分布函数的曲线,会均匀地、无偏差地贴合总体真实分布函数,这也是整个非参数统计学的理论基石。
六、总结:经验分布函数的完整逻辑链
- 核心动机:总体分布\(F(x)\)未知,用样本频率估计总体概率,构造经验分布函数;
- 数学本质:经验分布函数是独立同分布0-1随机变量的样本均值,为大样本理论提供了基础;
- 基本性质:本身是合格的分布函数,满足单调非降、右连续、极限规范性,是阶梯型函数;
- 理论保证:强大数定律证明了它的强相合性,中心极限定理给出了它的渐近正态性,格里文科定理证明了一致收敛性;
- 应用价值:是总体分布的非参数估计的核心,也是经验似然、核密度估计、生存分析等诸多统计方法的基础。
posted on 2026-02-19 16:55 Indian_Mysore 阅读(1) 评论(0) 收藏 举报
浙公网安备 33010602011771号