1.1概率空间和随机元素
邵军《数理统计》第一章:概率论基础(测度论框架)深度讲解
这是邵军《数理统计》(高等数理统计经典教材,强基计划、数学竞赛与统计学研究生核心教材)的开篇内容,建立了整个数理统计学科的测度论公理化基础。基础统计教材通常回避这部分内容,但所有严格的统计理论(充分统计量、条件期望、渐近理论、贝叶斯推断)都必须建立在这个框架之上。
一、核心概念深度解读:为什么我们需要σ域?
1.1 公理化概率论的历史背景
1933年柯尔莫哥洛夫(A.N. Kolmogorov)建立的测度论公理化体系,彻底解决了早期概率论中的悖论危机(如贝特朗悖论、无限集合上的概率定义问题)。其核心思想是:
- 我们不需要也不可能给样本空间的所有子集都定义概率
- 我们只需要给那些我们真正关心的、有实际意义的事件定义概率
- σ域就是所有"可定义概率的事件"的集合
1.2 σ域定义的本质与每条性质的意义
定义1.1给出的σ域三条性质,每一条都对应我们对"事件"的基本直觉:
- 空集属于σ域:"什么都不发生"是一个合法的事件
- 对补运算封闭:如果"A发生"是一个事件,那么"A不发生"也必须是一个事件
- 对可数并运算封闭:如果A₁,A₂,...都是事件,那么"至少有一个Aᵢ发生"也必须是一个事件
关键推论(教材未明确证明):σ域对可数交运算也封闭。
证明:由De Morgan定律,\(\bigcap_{i=1}^\infty A_i = \left(\bigcup_{i=1}^\infty A_i^c\right)^c\)。
- 由性质2,每个\(A_i^c \in \mathcal{F}\)
- 由性质3,\(\bigcup_{i=1}^\infty A_i^c \in \mathcal{F}\)
- 再由性质2,其补集\(\bigcap_{i=1}^\infty A_i \in \mathcal{F}\)
证毕。
1.3 生成σ域:最小σ域的存在性
教材中提到的"包含集合类\(\mathcal{C}\)的最小σ域\(\sigma(\mathcal{C})\)"是一个极其重要的概念。其严格定义为:
存在性证明:
- 样本空间\(\Omega\)的所有子集构成的集合类\(2^\Omega\)是一个σ域,且包含\(\mathcal{C}\),因此上述交集非空
- 任意多个σ域的交仍然是σ域(验证三条性质即可)
- 因此\(\sigma(\mathcal{C})\)是包含\(\mathcal{C}\)的最小σ域
二、Borel σ域:统计学中最重要的σ域
2.1 为什么我们不用所有子集的σ域?
教材中提到\(\Omega\)的所有子集构成的集合类是最大的σ域,但我们几乎从不使用它,原因是:
- 在实数集\(\mathbb{R}\)上,不存在定义在所有子集上的、满足平移不变性的测度(Banach-Tarski悖论)
- 所有我们在统计中关心的集合(区间、开集、闭集、可数集)都已经包含在Borel σ域中
- Borel σ域足够"大",但又足够"小",使得我们可以在其上定义合理的测度
2.2 Borel σ域的等价生成方式
教材证明了\(\mathcal{B} = \sigma(\text{所有开区间}) = \sigma(\text{所有开集})\)。实际上,Borel σ域可以由多种不同的集合类生成:
- 所有闭区间:\(\sigma(\{[a,b] \mid a < b\})\)
- 所有半开区间:\(\sigma(\{[a,b) \mid a < b\})\)
- 所有左半直线:\(\sigma(\{(-\infty, x] \mid x \in \mathbb{R}\})\)
这一性质在统计中极其重要:随机变量的分布函数完全决定了其概率分布,正是因为分布函数定义了所有左半直线的概率,而这些左半直线生成了整个Borel σ域。
2.3 高维Borel σ域
\(k\)维欧几里得空间\(\mathbb{R}^k\)上的Borel σ域\(\mathcal{B}^k\)可以由以下任意一种集合类生成:
- 所有开矩形:\(\{(x_1,\dots,x_k) \mid a_i < x_i < b_i, i=1,\dots,k\}\)
- 所有开集
- 所有左半无限矩形:\(\{(x_1,\dots,x_k) \mid x_i \leq t_i, i=1,\dots,k\}\)
这是多元统计分析的基础,所有多元随机变量的分布都定义在\(\mathcal{B}^k\)上。
三、易错点与反例构造
3.1 反例1:存在不可测集
Vitali集:在区间\([0,1)\)上定义等价关系\(x \sim y\)当且仅当\(x-y\)是有理数。从每个等价类中选取一个代表元,构成集合\(V\)。可以证明\(V\)不是Borel集,甚至不是Lebesgue可测集。
意义:这一例子明确告诉我们,不是所有子集都能定义概率,σ域的引入不是多余的数学抽象,而是为了避免逻辑矛盾。
3.2 易错点1:σ域只对可数运算封闭
σ域对可数并和可数交封闭,但不对不可数运算封闭。
- 反例:每个单点集\(\{x\}\)都是Borel集,但\([0,1]\)中的所有不可数子集并不都是Borel集
- 统计意义:我们只能谈论"可数个事件中至少有一个发生"的概率,不能谈论"不可数个事件中至少有一个发生"的概率
3.3 易错点2:生成σ域的元素远少于σ域本身
由开区间生成的Borel σ域包含了极其复杂的集合,其基数与实数集的基数相同。但我们在统计中遇到的几乎所有集合都属于Borel σ域,这是统计学的一个幸运之处。
四、与后续统计内容的关键衔接
这部分内容不是孤立的数学基础,而是直接服务于整个数理统计体系:
-
随机变量的严格定义:随机变量是从样本空间\((\Omega, \mathcal{F})\)到实数集\((\mathbb{R}, \mathcal{B})\)的可测函数,即对任意Borel集\(B \in \mathcal{B}\),有\(X^{-1}(B) \in \mathcal{F}\)。这保证了"随机变量X落在B中"是一个合法的事件,可以定义概率。
-
概率测度:定义在σ域\(\mathcal{F}\)上的测度\(P\)满足\(P(\Omega)=1\),称为概率测度。三元组\((\Omega, \mathcal{F}, P)\)称为概率空间,这是所有概率计算的起点。
-
充分统计量的严格定义:统计量\(T\)是充分的,当且仅当给定\(T\)的σ域\(\sigma(T)\)后,样本的条件分布与参数无关。这是因子分解定理的测度论基础。
-
条件期望的严格定义:条件期望\(E[X \mid \mathcal{G}]\)是X在σ域\(\mathcal{G}\)上的正交投影,这是贝叶斯统计和鞅论的核心概念。
-
渐近理论:几乎处处收敛、依概率收敛等收敛模式,本质上都是测度论意义下的收敛,只有在测度论框架下才能严格证明。
五、思考题(检验理解程度)
-
证明:如果\(\mathcal{F}\)是σ域,\(A \in \mathcal{F}\),则\(\mathcal{F}_A = \{A \cap B \mid B \in \mathcal{F}\}\)也是σ域(这就是教材最后提到的子集上的诱导σ域)。
-
证明:由\(\mathbb{R}\)上所有单点集生成的σ域包含所有可数集和余可数集(即补集为可数集的集合)。
-
解释为什么在统计中,我们只需要关心Borel集,而不需要关心更一般的可测集。
邵军《数理统计》第一章:测度的公理化定义(深度讲解)
这是测度论公理化体系的核心定义,也是从"长度/面积/体积"的直观概念上升到抽象测度的关键一步。所有统计推断的严格理论(似然函数、期望、条件概率、渐近理论)都建立在这个定义之上。
一、测度定义的本质解读
定义1.2给出的测度三条公理,是对"测量"这一人类基本行为的数学抽象:
- 非负性:任何集合的"大小"都不能是负数,这是测量的基本要求
- 空集公理:空集的"大小"为零,这是一个自然的约定
- 可数可加性(σ可加性):两两不相交集合的并集的测度,等于各集合测度之和
核心要点:可数可加性是测度论的灵魂
- 有限可加性(即对任意有限个不相交集合成立)是不够的,它无法处理无限次随机试验的问题
- 例如:无限次抛硬币,"第一次出现正面"的概率应该等于"第1次正面"+"第2次正面"+"第3次正面"+...的概率之和
- 如果只有有限可加性,我们无法计算这类涉及无限过程的概率
重要推论(教材未证明):可数可加性蕴含有限可加性
证明:对任意有限个不相交集合\(A_1,A_2,\dots,A_n\),令\(A_{n+1}=A_{n+2}=\dots=\varnothing\),则
证毕。
二、概率测度:统计学的基础
当测度\(\nu\)满足\(\nu(\Omega)=1\)时,它就成为概率测度,记为\(P\)。此时三元组\((\Omega, \mathcal{F}, P)\)称为概率空间。
概率测度的特殊性质:
- 对任意事件\(A \in \mathcal{F}\),有\(0 \leq P(A) \leq 1\)
- 对任意事件\(A\),有\(P(A^c) = 1 - P(A)\)
- 对任意两个事件\(A,B\),有\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)
统计意义:概率空间是所有统计模型的数学抽象。例如:
- 抛一次硬币:\(\Omega=\{H,T\}\),\(\mathcal{F}=\{\varnothing,\{H\},\{T\},\{H,T\}\}\),\(P(\{H\})=p\),\(P(\{T\})=1-p\)
- 正态分布:\(\Omega=\mathbb{R}\),\(\mathcal{F}=\mathcal{B}\)(Borel σ域),\(P(A)=\int_A \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx\)
三、测度的基本性质(教材未明确列出,但后续证明必备)
3.1 单调性
若\(A \subset B\),则\(\nu(A) \leq \nu(B)\)。
证明:\(B = A \cup (B \setminus A)\),且\(A\)与\(B \setminus A\)不相交。由可数可加性:
证毕。
3.2 次可加性
对任意可数个集合\(A_1,A_2,\dots\),有
证明:令\(B_1=A_1\),\(B_i=A_i \setminus \bigcup_{j=1}^{i-1} A_j\),则\(B_i\)两两不相交,且\(\bigcup_{i=1}^\infty B_i = \bigcup_{i=1}^\infty A_i\)。由单调性,\(\nu(B_i) \leq \nu(A_i)\),故
证毕。
3.3 测度的连续性
- 下连续:若\(A_1 \subset A_2 \subset \dots\),则\(\nu\left(\bigcup_{i=1}^\infty A_i\right) = \lim_{n\to\infty} \nu(A_n)\)
- 上连续:若\(A_1 \supset A_2 \supset \dots\),且存在某个\(n\)使得\(\nu(A_n) < \infty\),则\(\nu\left(\bigcap_{i=1}^\infty A_i\right) = \lim_{n\to\infty} \nu(A_n)\)
统计意义:测度的连续性是证明大数定律、中心极限定理等渐近结果的关键工具。
四、无穷大的运算规则:必须严格遵守的约定
教材中给出的无穷大运算规则是测度论和积分理论的标准约定,任何违反这些约定的运算都是错误的。
| 运算 | 结果 | 说明 |
|---|---|---|
| \(\infty + x\) | \(\infty\) | 对任意实数\(x\) |
| \(x \cdot \infty\) | \(\infty\) | 当\(x > 0\)时 |
| \(x \cdot \infty\) | \(-\infty\) | 当\(x < 0\)时 |
| \(0 \cdot \infty\) | \(0\) | 这是一个约定,目的是让积分理论自洽 |
| \(\infty + \infty\) | \(\infty\) | |
| \(\infty^a\) | \(\infty\) | 对任意\(a > 0\) |
| \(\infty - \infty\) | 无定义 | 这是最容易出错的地方,任何证明中出现\(\infty - \infty\)都是无效的 |
| \(\infty / \infty\) | 无定义 |
关键说明:\(0 \cdot \infty = 0\)这个约定不是数学定理,而是为了方便积分计算。例如:
- 零函数在无限测度集上的积分应该是零:\(\int_\mathbb{R} 0 dx = 0\)
- 如果没有这个约定,我们就需要单独处理这种情况,会使理论变得非常繁琐
五、统计学中最常用的测度
5.1 Lebesgue测度
- 定义在\(\mathbb{R}^k\)的Borel σ域上
- 对区间\([a,b]\),其Lebesgue测度等于区间长度\(b-a\)
- 对矩形\([a_1,b_1] \times \dots \times [a_k,b_k]\),其Lebesgue测度等于体积\(\prod_{i=1}^k (b_i-a_i)\)
- 统计意义:所有连续型随机变量的概率密度函数,都是关于Lebesgue测度的Radon-Nikodym导数
5.2 计数测度
- 定义在任意集合\(\Omega\)的所有子集构成的σ域上
- 对任意集合\(A\),计数测度\(\nu(A)\)等于\(A\)中元素的个数
- 统计意义:所有离散型随机变量的概率质量函数,都是关于计数测度的Radon-Nikodym导数
5.3 Dirac测度(点质量测度)
- 固定一个点\(x_0 \in \Omega\),Dirac测度\(\delta_{x_0}\)定义为:\[\delta_{x_0}(A) = \begin{cases} 1, & x_0 \in A \\ 0, & x_0 \notin A \end{cases} \]
- 统计意义:对应退化分布(随机变量以概率1取某个固定值),在贝叶斯统计、混合模型和非参数统计中广泛应用
六、易错点与反例
6.1 反例:有限可加但不是可数可加的集合函数
考虑自然数集\(\mathbb{N}\),定义集合函数\(\nu\)为:
可以证明\(\nu\)是有限可加的,但不是可数可加的:
- 每个单点集\(\{n\}\)都是有限集,故\(\nu(\{n\})=0\)
- 所有单点集的并是\(\mathbb{N}\),是余有限集,故\(\nu(\mathbb{N})=1\)
- 但\(\sum_{n=1}^\infty \nu(\{n\}) = 0 \neq 1\)
意义:这个例子说明可数可加性是一个比有限可加性强得多的条件,也是测度论能够处理无限过程的关键。
6.2 易错点:上连续性要求有限测度条件
上连续性中的"存在某个\(n\)使得\(\nu(A_n) < \infty\)"是必要的。反例:
- 取\(\nu\)为\(\mathbb{N}\)上的计数测度
- 令\(A_n = \{n, n+1, n+2, \dots\}\),则\(A_1 \supset A_2 \supset \dots\)
- \(\bigcap_{n=1}^\infty A_n = \varnothing\),故\(\nu\left(\bigcap_{n=1}^\infty A_n\right) = 0\)
- 但\(\nu(A_n) = \infty\)对所有\(n\),故\(\lim_{n\to\infty} \nu(A_n) = \infty \neq 0\)
七、与后续统计内容的关键衔接
-
似然函数的统一定义:无论是离散分布还是连续分布,似然函数都可以统一表示为关于某个支配测度的Radon-Nikodym导数。这使得我们可以用统一的框架处理所有统计模型。
-
期望的严格定义:随机变量\(X\)的期望\(E[X]\)就是\(X\)关于概率测度\(P\)的积分\(\int_\Omega X dP\)。这是所有统计量性质(无偏性、方差、渐近分布)的基础。
-
Radon-Nikodym定理:如果两个测度\(\nu\)和\(\mu\)满足\(\nu \ll \mu\)(\(\nu\)关于\(\mu\)绝对连续),则存在可测函数\(f\)使得\(\nu(A) = \int_A f d\mu\)。这个定理是密度函数存在性的严格证明,也是贝叶斯定理的测度论基础。
-
乘积测度与Fubini定理:乘积测度定义了独立随机变量的联合分布,Fubini定理允许我们交换积分顺序,这在计算期望和方差时经常用到。
八、思考题(检验理解程度)
-
证明:如果\(\nu\)是测度,\(A,B \in \mathcal{F}\),则\(\nu(A \cup B) + \nu(A \cap B) = \nu(A) + \nu(B)\)。
-
设\(\nu\)是\(\mathbb{N}\)上的计数测度,\(A_n = \{1,2,\dots,n\}\)。验证测度的下连续性:\(\nu\left(\bigcup_{n=1}^\infty A_n\right) = \lim_{n\to\infty} \nu(A_n)\)。
-
解释为什么在统计中,我们几乎只处理σ有限测度(即\(\Omega\)可以表示为可数个测度有限的集合的并)。
邵军《数理统计》第一章:统计学两大核心测度与σ域的终极意义
这一页内容是整个测度论统计学的基石。它通过两个具体的测度例子,彻底回答了"为什么我们需要σ域"这个最根本的问题,并为离散统计和连续统计建立了统一的数学框架。
一、计数测度:离散统计的数学基础
1.1 定义与核心性质
计数测度是最直观的测度,它直接对应"数个数"这个基本操作:
- 对任意集合\(A\),\(\nu(A)\)等于\(A\)中元素的个数
- 若\(A\)是无限集,则\(\nu(A)=\infty\)
关键性质:
- σ有限性:当且仅当样本空间\(\Omega\)是可数集时,计数测度是σ有限的(即可表示为可数个测度有限的集合的并)
- 完全性:计数测度定义在\(\Omega\)的所有子集构成的σ域上,没有不可测集
- 平移不变性:在整数集\(\mathbb{Z}\)上,计数测度满足平移不变性\(\nu(A+k)=\nu(A)\)
1.2 统计意义:所有离散分布的统一语言
所有离散型随机变量的概率质量函数(PMF),本质上都是关于计数测度的密度函数。
例如:
- 二项分布\(X \sim B(n,p)\):\(P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}\),这是关于\(\{0,1,\dots,n\}\)上计数测度的密度
- 泊松分布\(X \sim P(\lambda)\):\(P(X=k) = e^{-\lambda} \frac{\lambda^k}{k!}\),这是关于自然数集\(\mathbb{N}\)上计数测度的密度
- 几何分布\(X \sim Geom(p)\):\(P(X=k) = (1-p)^{k-1} p\),这是关于正整数集\(\mathbb{N}^+\)上计数测度的密度
为什么离散统计不需要σ域?
对于可数样本空间,计数测度可以完美地定义在所有子集上,没有任何逻辑矛盾。这就是为什么基础概率论中,离散情况可以直接谈论"任意事件的概率",而不需要引入σ域的概念。
二、Lebesgue测度:连续统计的数学基础
2.1 定义与唯一性定理
教材中给出的Lebesgue测度定义,实际上是Carathéodory扩张定理的直接结果:
Carathéodory扩张定理:设\(\mathcal{C}\)是样本空间\(\Omega\)上的半环,\(\nu\)是\(\mathcal{C}\)上的有限可加、σ有限的测度,则\(\nu\)可以唯一地扩张到由\(\mathcal{C}\)生成的σ域\(\sigma(\mathcal{C})\)上。
对于实数集\(\mathbb{R}\):
- 半环\(\mathcal{C}\)是所有有限开区间\((a,b)\)的集合
- 半环上的测度定义为区间长度\(\nu((a,b))=b-a\)
- 扩张得到的σ域就是Borel σ域\(\mathcal{B}\)
- 扩张后的测度就是Lebesgue测度\(m\)
唯一性是Lebesgue测度最重要的性质:它是\(\mathbb{R}\)上唯一满足"区间长度等于\(b-a\)"的测度。这保证了我们对"长度"的直观理解是唯一且自洽的。
2.2 核心性质
- 平移不变性:对任意Borel集\(A\)和实数\(x\),\(m(A+x)=m(A)\)
- 旋转不变性:在\(\mathbb{R}^k\)上,Lebesgue测度在正交变换下保持不变
- 正则性:任意Borel集的测度可以用开集从外部逼近,用紧集从内部逼近
- 单点集测度为零:对任意实数\(x\),\(m(\{x\})=0\)
2.3 统计意义:所有连续分布的统一语言
所有连续型随机变量的概率密度函数(PDF),本质上都是关于Lebesgue测度的密度函数。
例如:
- 正态分布\(X \sim N(\mu,\sigma^2)\):\(f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\),这是关于\(\mathbb{R}\)上Lebesgue测度的密度
- 均匀分布\(X \sim U(a,b)\):\(f(x) = \frac{1}{b-a} I_{(a,b)}(x)\),这是关于\((a,b)\)上Lebesgue测度的密度
- 指数分布\(X \sim Exp(\lambda)\):\(f(x) = \lambda e^{-\lambda x} I_{(0,\infty)}(x)\),这是关于\((0,\infty)\)上Lebesgue测度的密度
特别重要:教材中提到"把\(m\)限制在\([0,1]\)上就是概率测度",这正是均匀分布\(U(0,1)\)的严格定义。而所有连续分布都可以通过\(U(0,1)\)的逆变换生成,这是随机数生成的理论基础。
三、σ域引入的终极原因:不可测集的存在性
教材中用一句话点出了σ域的本质意义:
当\(\Omega\)不可数时,给\(\Omega\)中的每个子集定义一个有意义的测度是不可能的。
这不是一个技术限制,而是一个逻辑上的必然结果。完整的结论是:
Vitali定理:在实数集\(\mathbb{R}\)上,不存在定义在所有子集上的、同时满足以下三个条件的测度:
- 对任意有限区间\([a,b]\),\(m([a,b])=b-a\)
- 平移不变性:\(m(A+x)=m(A)\)
- 可数可加性
3.1 Vitali不可测集的构造思路
- 在区间\([0,1)\)上定义等价关系:\(x \sim y\)当且仅当\(x-y\)是有理数
- 从每个等价类中选取一个代表元,构成集合\(V\)(Vitali集)
- 对每个有理数\(q \in [0,1)\),定义\(V_q = (V+q) \mod 1\)
- 可以证明:所有\(V_q\)两两不相交,且它们的并是\([0,1)\)
- 如果\(V\)是可测的,那么由平移不变性,\(m(V_q)=m(V)\)对所有\(q\)
- 由可数可加性,\(m([0,1)) = \sum_{q \in \mathbb{Q} \cap [0,1)} m(V_q) = \sum_{q \in \mathbb{Q} \cap [0,1)} m(V)\)
- 左边等于1,右边要么是0(如果\(m(V)=0\)),要么是\(\infty\)(如果\(m(V)>0\)),矛盾
因此,\(V\)不可能是可测集。
3.2 更惊人的结果:Banach-Tarski悖论
在三维空间\(\mathbb{R}^3\)中,存在一种方法,可以把一个单位球分成有限个(实际上是5个)子集,然后通过平移和旋转,重新组合成两个和原来完全一样的单位球。
这个悖论彻底证明了:在三维空间中,不存在定义在所有子集上的、有限可加、平移和旋转不变的测度。
3.3 σ域的本质:排除病态集合
σ域的引入,不是为了增加数学的抽象性,而是为了排除这些逻辑上矛盾的病态集合。Borel σ域包含了所有我们在实际应用中可能遇到的集合(区间、开集、闭集、可数集、Cantor集等),但排除了Vitali集这样的不可测集。
一个重要的事实:所有在数学分析和统计学中遇到的集合,都是Borel集。不可测集的构造需要用到选择公理,它们在现实世界中没有对应物。
四、离散与连续的统一:测度论框架的核心优势
在基础概率论中,我们通常分开处理离散和连续情况:
- 离散:用求和计算概率和期望
- 连续:用积分计算概率和期望
但在测度论框架下,这两种情况可以完全统一为关于某个支配测度的积分:
- 离散情况:关于计数测度的积分就是求和:\(\int_A f d\nu = \sum_{x \in A} f(x)\)
- 连续情况:关于Lebesgue测度的积分就是普通的黎曼积分(对于黎曼可积函数)
这种统一性是高等数理统计最强大的工具之一,它使得我们可以:
- 用统一的语言和方法处理所有类型的统计模型
- 自然地处理混合模型(既有离散又有连续成分)
- 严格证明似然函数、期望、条件概率等概念的性质
- 建立渐近理论的严格基础
五、易错点与反例
5.1 易错点1:混淆基数与测度
- 可数集的Lebesgue测度一定是0
- 但不可数集的Lebesgue测度也可以是0
- 经典反例:Cantor集。Cantor集是\([0,1]\)中的一个不可数子集,但它的Lebesgue测度是0
5.2 易错点2:认为所有函数都是可测的
- 存在不可测函数,但它们同样非常病态
- 所有连续函数、单调函数、分段连续函数都是可测的
- 统计学中遇到的所有函数(指示函数、多项式、指数函数、三角函数等)都是可测的
5.3 易错点3:忽略测度的σ有限性
- 不是所有测度都是σ有限的
- 例如,\(\mathbb{R}\)上的计数测度就不是σ有限的
- Radon-Nikodym定理等重要结果要求测度是σ有限的
六、与后续统计内容的关键衔接
-
随机变量的严格定义:随机变量是从概率空间\((\Omega,\mathcal{F},P)\)到\((\mathbb{R},\mathcal{B})\)的可测函数。可测性保证了"\(X \in A\)"是一个合法的事件,可以定义概率。
-
诱导测度与分布函数:随机变量\(X\)诱导了\((\mathbb{R},\mathcal{B})\)上的一个概率测度\(P_X\),定义为\(P_X(A)=P(X \in A)\)。分布函数\(F(x)=P_X((-\infty,x])\)完全决定了\(P_X\)。
-
Radon-Nikodym定理:如果概率测度\(P\)关于测度\(\mu\)绝对连续(即\(\mu(A)=0\)蕴含\(P(A)=0\)),则存在唯一的可测函数\(f\),使得\(P(A)=\int_A f d\mu\)。这个\(f\)就是密度函数。
-
期望的统一定义:随机变量\(X\)的期望\(E[X] = \int_\Omega X dP\)。对于离散\(X\),这就是\(\sum x P(X=x)\);对于连续\(X\),这就是\(\int x f(x) dx\)。
-
乘积测度与独立性:独立随机变量的联合分布是各自分布的乘积测度。这是独立同分布样本的理论基础,也是大数定律和中心极限定理的前提。
七、思考题(检验理解程度)
- 证明:Cantor集的Lebesgue测度是0。
- 设\(\nu\)是\(\mathbb{N}\)上的计数测度,\(f\)是\(\mathbb{N}\)上的非负函数。证明:\(\int_\mathbb{N} f d\nu = \sum_{n=1}^\infty f(n)\)。
- 解释为什么在统计中,我们几乎不需要关心不可测集和不可测函数。
邵军《数理统计》第一章:测度的基本性质与累积分布函数
这一页内容是测度论从抽象定义走向实际应用的关键转折点。命题1.1给出的三个基本性质是所有测度计算和证明的基础,而累积分布函数(CDF)的引入则将抽象的概率测度转化为我们熟悉的实值函数,为统计学的定量分析奠定了基础。
一、命题1.1:测度的三大基本性质(完整证明)
教材只给出了单调性的证明,这里补充次可加性和连续性的完整证明,每一步都严格标注理论依据。
1.1 单调性(Monotonicity)
命题:若\(A \subset B\),则\(\nu(A) \leq \nu(B)\)。
证明:
因为\(A \subset B\),所以\(B\)可以分解为两个不相交集合的并:
其中\(A \cap (B \setminus A) = \varnothing\)。
由测度的可数可加性(定义1.2(iii)),有限可加性成立:
由测度的非负性(定义1.2(i)),\(\nu(B \setminus A) \geq 0\),因此:
证毕。□
统计意义:这对应我们最基本的概率直觉——"如果事件A蕴含事件B,那么A发生的概率不超过B发生的概率"。例如,"掷骰子得到2"的概率一定不超过"掷骰子得到偶数"的概率。
1.2 次可加性(Subadditivity)/ Boole不等式
命题:对任意可数个集合\(A_1, A_2, \dots\),有
证明:
构造两两不相交的集合序列\(\{B_i\}\):
显然有:
- \(B_i \subset A_i\)对所有\(i\)成立
- \(B_i\)两两不相交
- \(\bigcup_{i=1}^\infty B_i = \bigcup_{i=1}^\infty A_i\)
由测度的可数可加性:
由测度的单调性,\(\nu(B_i) \leq \nu(A_i)\)对所有\(i\)成立,因此:
联立两式即得结论。证毕。□
统计意义:这就是概率论中著名的Boole不等式。它告诉我们:"至少有一个事件发生的概率,不超过每个事件发生的概率之和"。这个不等式在多重检验(Multiple Testing)中具有核心地位,是控制总体错误率(Family-Wise Error Rate)的基础。
重要推论:有限次可加性。对任意有限个集合\(A_1, \dots, A_n\),有
1.3 连续性(Continuity)
命题:
- 下连续:若\(A_1 \subset A_2 \subset A_3 \subset \dots\)(递增集合序列),则\[\nu\left(\bigcup_{i=1}^\infty A_i\right) = \lim_{n\to\infty} \nu(A_n) \]
- 上连续:若\(A_1 \supset A_2 \supset A_3 \supset \dots\)(递减集合序列)且\(\nu(A_1) < \infty\),则\[\nu\left(\bigcap_{i=1}^\infty A_i\right) = \lim_{n\to\infty} \nu(A_n) \]
证明:
(1) 下连续的证明:
构造两两不相交的集合序列\(\{B_i\}\):
显然有:
- \(B_i\)两两不相交
- \(\bigcup_{i=1}^n B_i = A_n\)对所有\(n\)成立
- \(\bigcup_{i=1}^\infty B_i = \bigcup_{i=1}^\infty A_i\)
由测度的可数可加性:
证毕。
(2) 上连续的证明:
考虑补集序列\(\{A_i^c\}\),则:
- \(A_1^c \subset A_2^c \subset A_3^c \subset \dots\)(递增集合序列)
- 由De Morgan定律,\(\bigcup_{i=1}^\infty A_i^c = \left(\bigcap_{i=1}^\infty A_i\right)^c\)
由下连续性:
即:
因为\(\nu(A_1) < \infty\),所以对所有\(n\),\(\nu(A_n) \leq \nu(A_1) < \infty\),因此\(\nu(A_n^c) = \nu(\Omega) - \nu(A_n)\)有意义。代入上式:
两边减去\(\nu(\Omega)\)即得结论。证毕。□
关键注意点:上连续性中的条件\(\nu(A_1) < \infty\)是必不可少的。反例:
- 取\(\nu\)为\(\mathbb{N}\)上的计数测度
- 令\(A_n = \{n, n+1, n+2, \dots\}\),则\(A_1 \supset A_2 \supset \dots\)
- \(\bigcap_{n=1}^\infty A_n = \varnothing\),故\(\nu\left(\bigcap_{n=1}^\infty A_n\right) = 0\)
- 但\(\nu(A_n) = \infty\)对所有\(n\),故\(\lim_{n\to\infty} \nu(A_n) = \infty \neq 0\)
统计意义:测度的连续性是证明大数定律、中心极限定理等所有渐近结果的基础。它允许我们将"无限次试验"的概率转化为"有限次试验"概率的极限。
二、累积分布函数(CDF):概率测度的实值表示
教材中最重要的一句话是:
\((\mathbb{R}, \mathcal{B})\)上所有概率测度的集合与\(\mathbb{R}\)上的一个函数集合是一一对应的。
这句话是整个统计学的基石之一。它告诉我们:研究实数上的概率测度,等价于研究累积分布函数。
2.1 CDF的定义
设\(P\)是\((\mathbb{R}, \mathcal{B})\)上的概率测度,则其累积分布函数\(F: \mathbb{R} \to [0,1]\)定义为:
2.2 CDF的基本性质
一个函数\(F\)是某个概率测度的CDF,当且仅当它满足以下四个性质:
- 单调性:若\(x_1 < x_2\),则\(F(x_1) \leq F(x_2)\)
- 右连续性:对任意\(x \in \mathbb{R}\),\(\lim_{t \to x^+} F(t) = F(x)\)
- 极限性质:\(\lim_{x \to -\infty} F(x) = 0\),\(\lim_{x \to +\infty} F(x) = 1\)
- 左极限存在:对任意\(x \in \mathbb{R}\),\(\lim_{t \to x^-} F(t) = F(x^-)\)存在
证明思路:
- 单调性由测度的单调性直接得到
- 右连续性由测度的上连续性得到
- 极限性质由测度的连续性和\(P(\mathbb{R})=1\)得到
- 左极限存在由单调性和实数的完备性得到
2.3 一一对应关系的完整表述
Lebesgue-Stieltjes定理:
- 对\((\mathbb{R}, \mathcal{B})\)上的任意概率测度\(P\),存在唯一的CDF \(F\)满足\(F(x) = P((-\infty, x])\)
- 对任意满足上述四个性质的函数\(F\),存在唯一的概率测度\(P\)满足\(P((-\infty, x]) = F(x)\)
这个测度\(P\)称为由\(F\)诱导的Lebesgue-Stieltjes测度。
统计意义:这个定理彻底解决了"如何定义概率分布"的问题。在统计学中,我们不需要直接处理抽象的测度,只需要给出CDF,就可以唯一确定一个概率分布。所有常见的分布(正态分布、二项分布、泊松分布等)都是通过它们的CDF(或等价的PDF/PMF)来定义的。
2.4 从CDF计算任意Borel集的概率
由CDF可以计算任意区间的概率:
- \(P((a, b]) = F(b) - F(a)\)
- \(P([a, b]) = F(b) - F(a^-)\)
- \(P((a, b)) = F(b^-) - F(a)\)
- \(P([a, b)) = F(b^-) - F(a^-)\)
- \(P(\{x\}) = F(x) - F(x^-)\)(点\(x\)处的概率质量)
对于更复杂的Borel集,可以通过测度的扩张定理,由区间的概率唯一确定。
三、易错点与常见误区
-
混淆次可加性与可数可加性
- 可数可加性要求集合两两不相交,此时等号成立
- 次可加性对任意集合序列成立,此时只有不等号成立
-
忽略上连续性的有限测度条件
- 上连续性只对测度有限的递减集合序列成立
- 对于无限测度的情况,上连续性可能不成立,如前面的计数测度反例
-
混淆CDF的左连续与右连续
- CDF是右连续的,不是左连续的
- CDF在点\(x\)处的跳跃高度等于\(P(X=x)\)
- 连续型分布的CDF是处处连续的
-
认为所有函数都可以作为CDF
- 只有满足上述四个性质的函数才能作为CDF
- 例如,\(F(x) = e^x\)不是CDF,因为\(\lim_{x \to +\infty} F(x) = \infty \neq 1\)
四、与后续统计内容的关键衔接
-
随机变量的分布:随机变量\(X\)的分布就是由其CDF \(F_X(x) = P(X \leq x)\)唯一确定的概率测度。
-
离散型与连续型分布的统一:
- 离散型分布的CDF是阶梯函数,跳跃点处的高度等于概率质量
- 连续型分布的CDF是连续函数,其导数就是概率密度函数
- 混合分布的CDF既有跳跃点又有连续部分
-
期望的定义:随机变量\(X\)的期望可以表示为关于其CDF的Lebesgue-Stieltjes积分:
\[E[X] = \int_{-\infty}^{+\infty} x dF(x) \]这个表达式统一了离散和连续情况。
-
依分布收敛:随机变量序列\(X_n\)依分布收敛于\(X\),当且仅当它们的CDF序列\(F_n(x)\)在\(F(x)\)的所有连续点处收敛于\(F(x)\)。这是渐近理论的核心定义。
-
经验分布函数:经验分布函数\(\hat{F}_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i \leq x)\)是CDF的非参数估计,Glivenko-Cantelli定理保证了它一致收敛于真实CDF。
五、思考题(检验理解程度)
- 证明:对任意两个事件\(A\)和\(B\),有\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)。
- 设\(F(x)\)是CDF,证明:\(P(X = x) = F(x) - F(x^-)\)。
- 给出一个函数的例子,它满足单调性和极限性质,但不满足右连续性,因此不是CDF。
邵军《数理统计》第一章:CDF刻画定理与乘积测度基础
这两页内容是概率论从一元走向多元的关键桥梁。命题1.2给出了累积分布函数(CDF)的完整刻画,彻底解决了"什么样的函数可以作为概率分布"的问题;而乘积空间与σ有限测度的引入,则为多元统计分析、独立随机变量和随机过程奠定了严格的数学基础。
一、命题1.2:CDF的双向刻画定理(完整证明与解读)
命题1.2是整个概率论中最重要的定理之一,它建立了概率测度与实值函数之间的一一对应关系。这个定理是双向的,缺一不可。
1.1 必要性:所有CDF都满足四个性质
命题:若\(F\)是\((\mathbb{R}, \mathcal{B})\)上某个概率测度\(P\)的CDF,则:
(a) \(F(-\infty) = \lim_{x \to -\infty} F(x) = 0\)
(b) \(F(\infty) = \lim_{x \to \infty} F(x) = 1\)
(c) \(F\)是非降的:若\(x \leq y\),则\(F(x) \leq F(y)\)
(d) \(F\)是右连续的:\(\lim_{y \to x^+} F(y) = F(x)\)
证明:
(a) 取递减序列\(x_n \to -\infty\),则\((-\infty, x_1] \supset (-\infty, x_2] \supset \dots\),且\(\bigcap_{n=1}^\infty (-\infty, x_n] = \varnothing\)。
由测度的上连续性(命题1.1(iii)),且\(P((-\infty, x_1]) \leq 1 < \infty\),故:
证毕。
(b) 取递增序列\(x_n \to \infty\),则\((-\infty, x_1] \subset (-\infty, x_2] \subset \dots\),且\(\bigcup_{n=1}^\infty (-\infty, x_n] = \mathbb{R}\)。
由测度的下连续性(命题1.1(iii)),故:
证毕。
(c) 若\(x \leq y\),则\((-\infty, x] \subset (-\infty, y]\)。由测度的单调性(命题1.1(i)),故:
证毕。
(d) 对任意\(x \in \mathbb{R}\),取递减序列\(y_n \to x^+\),则\((-\infty, y_1] \supset (-\infty, y_2] \supset \dots\),且\(\bigcap_{n=1}^\infty (-\infty, y_n] = (-\infty, x]\)。
由测度的上连续性,故:
证毕。□
1.2 充分性:满足四个性质的函数一定是CDF
命题:若实值函数\(F: \mathbb{R} \to [0,1]\)满足上述(a)-(d)四个性质,则存在\((\mathbb{R}, \mathcal{B})\)上唯一的概率测度\(P\),使得对所有\(x \in \mathbb{R}\),有\(F(x) = P((-\infty, x])\)。
证明思路:
这是Carathéodory扩张定理的直接应用:
- 首先在半环\(\mathcal{C} = \{(a,b] \mid -\infty \leq a < b \leq \infty\}\)上定义集函数:\[P((a,b]) = F(b) - F(a) \]
- 证明这个集函数在\(\mathcal{C}\)上是有限可加且σ可加的
- 由Carathéodory扩张定理,这个集函数可以唯一地扩张到由\(\mathcal{C}\)生成的σ域\(\mathcal{B}\)上,成为一个概率测度
- 显然这个测度满足\(P((-\infty, x]) = F(x)\)
统计意义:这个定理是统计学的"存在性定理"。它告诉我们:只要我们能写出一个满足这四个简单性质的函数,我们就定义了一个合法的概率分布。所有常见的分布(正态、二项、泊松、指数等)都是通过这种方式定义的。
1.3 关键反例:不满足右连续性的函数不是CDF
考虑函数:
这个函数满足(a)(b)(c),但在\(x=0\)处不右连续(\(\lim_{y \to 0^+} F(y) = 1/2 = F(0)\),哦,不对,这个是右连续的。换一个:
这个函数在\(x=0\)处左连续但不右连续:\(\lim_{y \to 0^+} F(y) = 1/2 \neq F(0) = 0\)。它不能作为任何概率测度的CDF,因为如果它是,那么\(P(X \leq 0) = 0\),但\(P(X < 0) = 0\),\(P(X = 0) = 0\),而\(P(0 < X < 1) = 1/2\),\(P(X \geq 1) = 1\),总概率是\(0 + 1/2 + 1 = 3/2 > 1\),矛盾。
二、乘积空间与乘积σ域:多元统计的数学基础
当我们研究多个随机变量时,我们需要在乘积空间上定义概率测度。
2.1 笛卡尔积与乘积空间
- 有限个集合的笛卡尔积:\(\prod_{i=1}^k \Omega_i = \Omega_1 \times \Omega_2 \times \dots \times \Omega_k = \{(\omega_1, \omega_2, \dots, \omega_k) \mid \omega_i \in \Omega_i\}\)
- 可数个集合的笛卡尔积:\(\prod_{i=1}^\infty \Omega_i = \{(\omega_1, \omega_2, \dots) \mid \omega_i \in \Omega_i\}\)
统计意义:
- 两个随机变量的样本空间是\(\Omega_1 \times \Omega_2\)
- \(k\)个随机变量的样本空间是\(\prod_{i=1}^k \Omega_i\)
- 无限次独立试验的样本空间是\(\prod_{i=1}^\infty \Omega_i\)
2.2 乘积σ域的定义
设\((\Omega_i, \mathcal{F}_i)\)是可测空间,\(i=1,\dots,k\)。定义矩形集合类:
注意:\(\prod_{i=1}^k \mathcal{F}_i\)不是σ域!它只包含矩形集合,不包含它们的并、交、补等运算结果。
乘积σ域定义为:
即由所有矩形集合生成的最小σ域。
乘积可测空间记为:
2.3 最重要的例子:\(\mathbb{R}^k\)上的Borel σ域
定理:设\((\mathbb{R}, \mathcal{B})\)是一维Borel可测空间,则\(k\)维乘积σ域\(\sigma\left(\prod_{i=1}^k \mathcal{B}\right)\)等于\(k\)维Borel σ域\(\mathcal{B}^k\)(即由\(\mathbb{R}^k\)上所有开集生成的σ域)。
证明思路:
- 所有开矩形都是开集,故\(\prod_{i=1}^k \mathcal{B} \subset \mathcal{B}^k\),因此\(\sigma\left(\prod_{i=1}^k \mathcal{B}\right) \subset \mathcal{B}^k\)
- 反之,\(\mathbb{R}^k\)上的任意开集都可以表示为可数个开矩形的并,故\(\mathcal{B}^k \subset \sigma\left(\prod_{i=1}^k \mathcal{B}\right)\)
统计意义:这个定理是多元统计分析的基石。它告诉我们:\(k\)维随机向量的所有事件,都可以用各个分量的事件通过集合运算生成。我们不需要为多元情况重新定义σ域,一维Borel σ域的乘积就足够了。
三、σ有限测度:测度论中最重要的技术性条件
3.1 定义
设\((\Omega, \mathcal{F}, \nu)\)是测度空间。称\(\nu\)是σ有限的,如果存在可数个集合\(A_1, A_2, \dots \in \mathcal{F}\),使得:
- \(\bigcup_{i=1}^\infty A_i = \Omega\)
- 对所有\(i\),\(\nu(A_i) < \infty\)
3.2 常见测度的σ有限性
| 测度 | 样本空间 | σ有限性 | 说明 |
|---|---|---|---|
| 概率测度 | 任意 | 是 | 因为\(\nu(\Omega) = 1 < \infty\) |
| Lebesgue测度 | \(\mathbb{R}^k\) | 是 | 因为\(\mathbb{R}^k = \bigcup_{n=1}^\infty [-n, n]^k\),且每个\([-n, n]^k\)的测度有限 |
| 计数测度 | 可数集 | 是 | 因为可数集可以表示为可数个单点集的并,每个单点集的测度为1 |
| 计数测度 | 不可数集 | 否 | 因为任何测度有限的集合都是有限集,而不可数集不能表示为可数个有限集的并 |
| 平凡无穷测度(教材式1.2) | 任意 | 否 | 因为任何非空集合的测度都是\(\infty\) |
3.3 σ有限性的重要性
σ有限性是测度论中几乎所有重要定理的前提条件,包括:
- Carathéodory扩张定理:保证测度扩张的唯一性
- Radon-Nikodym定理:保证密度函数的存在性
- Fubini定理:允许交换积分顺序
- 乘积测度定理:保证乘积测度的存在性和唯一性
为什么σ有限性如此重要?
因为它允许我们将无限测度的问题分解为可数个有限测度的问题来处理。我们可以先在每个测度有限的集合\(A_i\)上证明结论,然后通过可数可加性推广到整个空间\(\Omega\)。
四、乘积测度定理与Fubini定理(教材未完整给出,但后续必备)
教材中提到了二维矩形的面积等于两个区间长度的乘积,这是乘积测度的直观背景。下面给出完整的乘积测度定理和Fubini定理。
4.1 乘积测度定理
设\((\Omega_i, \mathcal{F}_i, \nu_i)\)是σ有限测度空间,\(i=1,\dots,k\)。则存在乘积可测空间\(\prod_{i=1}^k (\Omega_i, \mathcal{F}_i)\)上唯一的σ有限测度\(\nu = \prod_{i=1}^k \nu_i\),使得对所有矩形\(A_1 \times \dots \times A_k\),有:
这个测度\(\nu\)称为\(\nu_1, \dots, \nu_k\)的乘积测度。
4.2 Fubini定理
设\((\Omega_1, \mathcal{F}_1, \nu_1)\)和\((\Omega_2, \mathcal{F}_2, \nu_2)\)是σ有限测度空间,\(f\)是乘积空间\(\Omega_1 \times \Omega_2\)上的可测函数。
- 若\(f \geq 0\),则:\[\int_{\Omega_1 \times \Omega_2} f d(\nu_1 \times \nu_2) = \int_{\Omega_1} \left( \int_{\Omega_2} f(\omega_1, \omega_2) d\nu_2(\omega_2) \right) d\nu_1(\omega_1) = \int_{\Omega_2} \left( \int_{\Omega_1} f(\omega_1, \omega_2) d\nu_1(\omega_1) \right) d\nu_2(\omega_2) \]
- 若\(f\)是可积的(即\(\int |f| d(\nu_1 \times \nu_2) < \infty\)),则上述等式同样成立。
统计意义:Fubini定理是计算多元积分和期望的基础。它告诉我们:在σ有限条件下,重积分可以化为累次积分,并且积分顺序可以交换。这个定理在计算联合期望、边缘分布、条件期望等统计量时被反复使用。
五、易错点与常见误区
-
混淆乘积集合类与乘积σ域
- 乘积集合类\(\prod_{i=1}^k \mathcal{F}_i\)只包含矩形集合,不是σ域
- 乘积σ域是由乘积集合类生成的σ域,包含所有可测的多元事件
-
忽略CDF的右连续性
- CDF是右连续的,不是左连续的
- 左连续的函数不能作为CDF,会导致概率矛盾
-
滥用Fubini定理
- Fubini定理要求测度是σ有限的,且函数非负或可积
- 不满足条件时,交换积分顺序可能得到错误的结果
-
认为所有测度都是σ有限的
- 不可数集上的计数测度不是σ有限的
- 平凡无穷测度不是σ有限的
- 非σ有限测度上的许多定理不成立
六、与后续统计内容的关键衔接
-
多元随机变量:\(k\)维随机向量是从概率空间\((\Omega, \mathcal{F}, P)\)到\((\mathbb{R}^k, \mathcal{B}^k)\)的可测函数。其联合分布是\((\mathbb{R}^k, \mathcal{B}^k)\)上的概率测度。
-
独立随机变量:随机变量\(X_1, \dots, X_k\)独立,当且仅当它们的联合分布等于边缘分布的乘积测度。这是独立同分布(i.i.d.)样本的理论基础。
-
联合期望与边缘期望:由Fubini定理,联合期望可以化为累次期望:\(E[g(X,Y)] = E[E[g(X,Y) \mid X]]\)。这是条件期望的塔式性质的基础。
-
随机过程:随机过程\(\{X_t, t \in T\}\)是定义在乘积空间\(\prod_{t \in T} \mathbb{R}\)上的概率测度。乘积σ域是随机过程可测性的基础。
-
大数定律与中心极限定理:这些定理都是关于独立随机变量和的渐近性质,它们的严格证明依赖于乘积测度和Fubini定理。
七、思考题(检验理解程度)
- 证明:若\(F\)是CDF,则\(F\)的不连续点最多只有可数个。
- 设\(F_1\)和\(F_2\)是两个CDF,证明:\(F(x) = \alpha F_1(x) + (1-\alpha) F_2(x)\)(\(0 \leq \alpha \leq 1\))也是CDF。这对应什么类型的分布?
- 证明:\(\mathbb{R}^2\)上的Borel σ域等于由所有开圆盘生成的σ域。
邵军《数理统计》第一章:乘积测度定理与多元分布基础
这两页内容完成了从一元概率论到多元概率论的关键跨越。乘积测度定理为多元空间上的测度构造提供了严格依据,而联合累积分布函数(联合CDF)则将多元概率测度转化为可计算的实值函数,最终给出了随机变量独立性的测度论严格定义。这是整个多元统计分析、独立样本理论和随机过程的数学基石。
一、命题1.3:乘积测度定理(完整解读)
1.1 定理的精确表述与核心条件
命题1.3(乘积测度定理):设\((\Omega_i, \mathcal{F}_i, \nu_i)\)是测度空间,\(i=1,\dots,k\),其中每个\(\nu_i\)都是σ有限的,\(k \geq 2\)为整数。则存在乘积σ域\(\sigma(\mathcal{F}_1 \times \dots \times \mathcal{F}_k)\)上唯一的σ有限测度,称为乘积测度,记为\(\nu_1 \times \dots \times \nu_k\),使得对于任意\(A_i \in \mathcal{F}_i\),\(i=1,\dots,k\),有:
关键条件解读:
- σ有限性是必不可少的前提:如果任何一个\(\nu_i\)不是σ有限的,乘积测度可能不存在,或者不唯一。
- 唯一性是定理的核心价值:它保证了我们对"矩形面积/体积"的直观理解可以唯一地推广到所有可测集。
- 乘积测度的σ有限性:有限个σ有限测度的乘积仍然是σ有限的。
1.2 定理的证明思路
乘积测度定理的证明分为两步:
- 存在性:首先在矩形集合类上定义集函数\(\nu(A_1 \times \dots \times A_k) = \prod \nu_i(A_i)\),证明它是有限可加且σ可加的。然后应用Carathéodory扩张定理,将其扩张到整个乘积σ域上。
- 唯一性:假设存在另一个满足条件的测度\(\nu'\),则\(\nu\)和\(\nu'\)在矩形集合类上相等。由于矩形集合类是生成乘积σ域的\(\pi\)系(对有限交封闭),由测度唯一性定理,\(\nu\)和\(\nu'\)在整个乘积σ域上相等。
1.3 最重要的例子:k维Lebesgue测度
- 一维Lebesgue测度\(m\)是σ有限的,因此可以定义\(k\)维乘积测度\(m^k = m \times m \times \dots \times m\)(\(k\)个)。
- 这个测度称为\(\mathbb{R}^k\)上的Lebesgue测度,它对任意\(k\)维矩形\([a_1,b_1] \times \dots \times [a_k,b_k]\)的测度等于其体积:\[m^k([a_1,b_1] \times \dots \times [a_k,b_k]) = \prod_{i=1}^k (b_i - a_i) \]
- 统计意义:所有\(k\)维连续型随机向量的联合概率密度函数(PDF),本质上都是关于\(k\)维Lebesgue测度的Radon-Nikodym导数。
二、联合累积分布函数(联合CDF)
2.1 定义与一一对应关系
设\(P\)是\((\mathbb{R}^k, \mathcal{B}^k)\)上的概率测度,则其联合CDF定义为:
定理(联合CDF的刻画):\((\mathbb{R}^k, \mathcal{B}^k)\)上的所有概率测度与满足以下性质的函数\(F: \mathbb{R}^k \to [0,1]\)之间存在一一对应关系:
- 单调性:对每个变量\(x_i\),\(F\)关于\(x_i\)非降。
- 右连续性:对每个变量\(x_i\),\(F\)关于\(x_i\)右连续。
- 极限性质:
- 若任何一个\(x_i \to -\infty\),则\(F(x_1, \dots, x_k) \to 0\)
- 若所有\(x_i \to +\infty\),则\(F(x_1, \dots, x_k) \to 1\)
- 矩形不等式(多元特有性质):对任意\(a_i < b_i\),\(i=1,\dots,k\),有:\[\Delta_{a_1,b_1} \dots \Delta_{a_k,b_k} F \geq 0 \]其中\(\Delta_{a_i,b_i} F = F(\dots, b_i, \dots) - F(\dots, a_i, \dots)\)是关于第\(i\)个变量的差分算子。
二维情形的矩形不等式:
这个值恰好等于矩形\((a_1,b_1] \times (a_2,b_2]\)的概率,因此必须非负。
关键说明:矩形不等式是多元CDF特有的性质,一维CDF没有这个条件。很多函数满足前三个性质,但不满足矩形不等式,因此不是合法的联合CDF。
2.2 边际CDF:从联合到单个变量
设\(F(x_1, \dots, x_k)\)是联合CDF,则第\(i\)个变量的边际CDF定义为:
统计意义:
- 边际CDF\(F_i(x)\)就是第\(i\)个随机变量\(X_i\)的CDF,它只包含\(X_i\)自身的概率信息。
- 联合CDF不能由边际CDF唯一确定:这是多元统计中最核心的事实之一。不同的联合CDF可以有完全相同的边际CDF,它们的区别在于变量之间的依赖关系。
经典反例:
考虑两个二维联合CDF:
- \(F_1(x_1,x_2) = \Phi(x_1)\Phi(x_2)\)(独立标准正态分布)
- \(F_2(x_1,x_2) = \int_{-\infty}^{x_1} \int_{-\infty}^{x_2} \frac{1}{2\pi\sqrt{1-\rho^2}} e^{-\frac{s^2 - 2\rho s t + t^2}{2(1-\rho^2)}} ds dt\)(相关系数为\(\rho\)的二维正态分布)
它们的边际CDF都是标准正态分布\(\Phi(x)\),但联合CDF完全不同,对应变量之间不同的依赖程度。
三、独立性的测度论严格定义
3.1 定义与等价表述
定义(独立随机变量):设\(X_1, \dots, X_k\)是随机变量,联合CDF为\(F(x_1, \dots, x_k)\),边际CDF为\(F_1(x_1), \dots, F_k(x_k)\)。如果对所有\((x_1, \dots, x_k) \in \mathbb{R}^k\),有:
则称\(X_1, \dots, X_k\)相互独立。
测度论等价表述:\(X_1, \dots, X_k\)相互独立,当且仅当它们的联合概率测度等于边际概率测度的乘积测度:
其中\(P_i\)是\(X_i\)的边际概率测度。
更一般的等价表述:\(X_1, \dots, X_k\)相互独立,当且仅当对任意Borel集\(A_1, \dots, A_k\),有:
3.2 独立性的统计意义
- 独立性意味着一个变量的取值不提供关于其他变量取值的任何信息。
- 独立随机变量的联合密度(如果存在)等于边际密度的乘积:\(f(x_1, \dots, x_k) = f_1(x_1) \dots f_k(x_k)\)。
- 独立随机变量的函数仍然独立:如果\(X_1, \dots, X_k\)独立,\(g_1, \dots, g_k\)是可测函数,则\(g_1(X_1), \dots, g_k(X_k)\)也独立。
统计学中最重要的特例:独立同分布(i.i.d.)样本
如果\(X_1, \dots, X_n\)独立且有相同的CDF\(F\),则称它们是来自分布\(F\)的独立同分布样本。其联合CDF为:
几乎所有的统计推断理论都是基于i.i.d.样本建立的。
四、无限乘积测度:随机过程与渐近理论的基础
教材中提到命题1.3可以推广到无限多个测度空间的情况,这是概率论中最深刻的结果之一。
4.1 无限乘积测度定理(Kolmogorov扩展定理的特例)
设\((\mathbb{R}^k, \mathcal{B}^k, P_i)\)是概率空间,\(i=1,2,\dots\)。则存在无限乘积空间\(\prod_{i=1}^\infty (\mathbb{R}^k, \mathcal{B}^k)\)上唯一的概率测度\(P\),使得对于任意正整数\(l\)和任意\(B_i \in \mathcal{B}^k\),\(i=1,\dots,l\),有:
4.2 定理的革命性意义
这个定理解决了概率论中一个最根本的问题:无限次独立随机试验的存在性。
- 在这个定理之前,我们只能讨论有限次试验的概率。
- 有了这个定理,我们才能严格定义无限独立同分布序列\(X_1, X_2, \dots\)。
- 所有的渐近理论,包括大数定律、中心极限定理、重对数律等,都是关于无限序列的极限性质,它们的严格证明都依赖于无限乘积测度的存在性。
统计意义:这个定理保证了我们可以在数学上严格地讨论"当样本量\(n \to \infty\)时统计量的性质",这是整个数理统计渐近理论的基础。
五、易错点与常见误区
-
忽略乘积测度定理的σ有限条件
- 非σ有限测度的乘积可能不存在或不唯一
- 例如,不可数集上的计数测度不是σ有限的,其乘积测度没有良好定义
-
认为联合CDF可以由边际CDF确定
- 边际CDF只包含单个变量的信息,不包含变量之间的依赖关系
- 只有当变量独立时,联合CDF才等于边际CDF的乘积
-
忘记联合CDF的矩形不等式
- 矩形不等式是多元CDF必须满足的特有性质
- 很多满足单调性、右连续性和极限性质的函数,不满足矩形不等式,因此不是合法的联合CDF
-
混淆独立性与不相关性
- 独立性蕴含不相关性,但不相关性不蕴含独立性
- 只有在正态分布等特殊情况下,不相关性才等价于独立性
六、与后续统计内容的关键衔接
-
多元统计分析:所有多元统计方法(多元方差分析、主成分分析、因子分析等)都建立在多元联合分布的基础上。
-
独立样本理论:t检验、F检验、方差分析等经典统计方法都要求样本是独立同分布的。
-
条件概率与条件期望:联合分布是定义条件概率和条件期望的基础,而条件期望是贝叶斯统计和鞅论的核心概念。
-
随机过程:随机过程\(\{X_t, t \in T\}\)就是定义在无限乘积空间上的概率测度,无限乘积测度定理保证了随机过程的存在性。
-
渐近理论:大数定律和中心极限定理都是关于独立同分布序列的极限定理,它们的严格证明依赖于无限乘积测度。
七、思考题(检验理解程度)
- 证明:如果\(X\)和\(Y\)独立,则对任意Borel集\(A\)和\(B\),有\(P(X \in A, Y \in B) = P(X \in A) P(Y \in B)\)。
- 给出一个二元函数的例子,它满足单调性、右连续性和极限性质,但不满足矩形不等式,因此不是联合CDF。
- 解释为什么无限乘积测度定理对于概率论和统计学是必不可少的。
邵军《数理统计》第一章:可测函数与随机变量
这一节是整个概率论和数理统计的概念核心。可测函数的定义看似抽象,实则解决了一个最根本的问题:什么样的函数可以作为随机变量? 而生成σ域的概念,则第一次给出了"信息"的严格数学定义,这是后续所有统计推断(充分性、条件概率、贝叶斯推断)的思想基础。
一、原像:可测函数定义的基石
1.1 原像的定义与核心性质
设\(f: \Omega \to \Lambda\)是从集合\(\Omega\)到集合\(\Lambda\)的函数。对任意\(B \subset \Lambda\),\(B\)在\(f\)下的原像定义为:
关键注意点:原像\(f^{-1}(B)\)的定义不要求函数\(f\)是可逆的。即使\(f\)不是单射或满射,原像仍然有良好定义。这是原像最容易被误解的地方。
命题(原像的基本性质):原像保持所有集合运算,即:
(a) 对任意\(B \subset \Lambda\),\(f^{-1}(B^c) = (f^{-1}(B))^c\)
(b) 对任意可数个集合\(B_i \subset \Lambda\),\(i=1,2,\dots\),有
证明:
(a) \(\omega \in f^{-1}(B^c) \iff f(\omega) \in B^c \iff f(\omega) \notin B \iff \omega \notin f^{-1}(B) \iff \omega \in (f^{-1}(B))^c\)。证毕。
(b) 只证并集的情况,交集类似。
\(\omega \in f^{-1}\left(\bigcup_{i=1}^\infty B_i\right) \iff f(\omega) \in \bigcup_{i=1}^\infty B_i \iff \exists i, f(\omega) \in B_i \iff \exists i, \omega \in f^{-1}(B_i) \iff \omega \in \bigcup_{i=1}^\infty f^{-1}(B_i)\)。证毕。□
原像性质的革命性意义:原像完美地保持了σ域的所有运算(补、可数并、可数交)。这意味着:如果我们在值域空间上有一个σ域,那么它的原像自动构成定义域空间上的一个σ域。这正是可测函数定义的来源。
二、可测函数的定义与本质
2.1 定义1.3的精确解读
定义1.3(可测函数):设\((\Omega, \mathcal{F})\)和\((\Lambda, \mathcal{G})\)是可测空间,\(f: \Omega \to \Lambda\)是函数。称\(f\)是从\((\Omega, \mathcal{F})\)到\((\Lambda, \mathcal{G})\)的可测函数,当且仅当
即对任意\(G \in \mathcal{G}\),有\(f^{-1}(G) \in \mathcal{F}\)。
定义的本质解读:
可测函数不是什么神秘的东西,它就是"保持可测性"的函数。换句话说:
- 值域空间中所有"可定义概率"的事件(即\(\mathcal{G}\)中的元素)
- 它们的原像在定义域空间中也必须是"可定义概率"的事件(即\(\mathcal{F}\)中的元素)
为什么这是必要的?
如果\(f\)是可测函数,那么对任意\(G \in \mathcal{G}\),我们可以定义概率\(P(f \in G) = P(f^{-1}(G))\)。如果\(f\)不可测,那么存在某个\(G \in \mathcal{G}\),使得\(f^{-1}(G) \notin \mathcal{F}\),我们就无法定义"\(f\)落在\(G\)中"的概率。
2.2 最重要的特例:Borel可测函数
当\((\Lambda, \mathcal{G}) = (\mathbb{R}, \mathcal{B})\)(实数集与Borel σ域)时,可测函数称为Borel可测函数,简称Borel函数。
定理(Borel可测性的简化判据):函数\(f: \Omega \to \mathbb{R}\)是Borel可测的,当且仅当对任意\(x \in \mathbb{R}\),有
证明思路:
- 必要性:显然,因为\((-\infty, x] \in \mathcal{B}\)。
- 充分性:集合类\(\{(-\infty, x] \mid x \in \mathbb{R}\}\)生成Borel σ域\(\mathcal{B}\)。由原像的性质,\(f^{-1}(\mathcal{B}) = \sigma(f^{-1}(\{(-\infty, x]\})) \subset \mathcal{F}\)。
统计意义:这个定理是随机变量定义的基础。它告诉我们,要验证一个函数是随机变量,只需要验证所有形如\(\{f \leq x\}\)的集合都是可测的,而不需要验证所有Borel集。
三、随机变量与随机向量:概率论的核心概念
3.1 定义
- 随机元素:定义在概率空间\((\Omega, \mathcal{F}, P)\)上的可测函数,称为随机元素。
- 随机变量:从\((\Omega, \mathcal{F})\)到\((\mathbb{R}, \mathcal{B})\)的随机元素,称为随机变量,记为\(X, Y, Z, \dots\)。
- k维随机向量:从\((\Omega, \mathcal{F})\)到\((\mathbb{R}^k, \mathcal{B}^k)\)的随机元素,称为k维随机向量。
关键事实:如果\(X_1, \dots, X_k\)是定义在同一个概率空间上的随机变量,那么向量\((X_1, \dots, X_k)\)自动是k维随机向量。
3.2 为什么随机变量必须是可测函数?
这是概率论中最根本的问题。答案非常简单:
如果一个函数不是可测的,那么我们无法定义它的分布函数,也无法计算它取任何值的概率。
例如,假设存在一个函数\(X: \Omega \to \mathbb{R}\),它不是可测的,那么存在某个\(x \in \mathbb{R}\),使得\(\{X \leq x\} \notin \mathcal{F}\)。这意味着我们无法定义\(F(x) = P(X \leq x)\),因为\(\{X \leq x\}\)不是一个合法的事件,没有概率。
一个重要的事实:所有在实际应用中遇到的函数都是Borel可测的。不可测函数的构造需要用到选择公理,它们在现实世界中没有对应物。
四、生成σ域:"信息"的严格数学定义
4.1 定义
设\(f: \Omega \to \Lambda\)是可测函数,则
称为由\(f\)生成的σ域。
生成σ域的本质意义:\(\sigma(f)\)包含了所有可以通过观察函数\(f\)的取值来确定的事件。换句话说,\(\sigma(f)\)就是函数\(f\)携带的所有信息。
这是整个统计学中最深刻的概念之一。它第一次将"信息"这个模糊的日常概念,转化为了一个严格的数学对象。
4.2 经典例子:示性函数的生成σ域
设\(A \subset \Omega\),\(A\)的示性函数定义为:
命题:如果\(A \in \mathcal{F}\),则\(I_A\)是Borel可测函数,且
证明:
对任意Borel集\(B \subset \mathbb{R}\),\(I_A^{-1}(B)\)只能是以下四种情况之一:
- 如果\(0 \notin B\)且\(1 \notin B\),则\(I_A^{-1}(B) = \varnothing\)
- 如果\(0 \notin B\)且\(1 \in B\),则\(I_A^{-1}(B) = A\)
- 如果\(0 \in B\)且\(1 \notin B\),则\(I_A^{-1}(B) = A^c\)
- 如果\(0 \in B\)且\(1 \in B\),则\(I_A^{-1}(B) = \Omega\)
因此,\(\sigma(I_A) = \{\varnothing, A, A^c, \Omega\}\)。证毕。□
直观解释:观察示性函数\(I_A\)的取值,只能告诉我们"\(\omega\)是否属于\(A\)"这一个信息。因此,它生成的σ域只包含四个事件:什么都没发生、A发生、A不发生、什么都发生。这完全符合我们的直觉。
4.3 生成σ域的大小与信息含量
- 生成σ域越小,函数携带的信息越少。
- 生成σ域越大,函数携带的信息越多。
- 平凡σ域\(\{\varnothing, \Omega\}\)对应不携带任何信息的常数函数。
- 全σ域\(\mathcal{F}\)对应携带所有信息的函数。
统计意义:这个概念是充分统计量的基础。一个统计量\(T\)是充分的,当且仅当给定\(\sigma(T)\)后,样本的条件分布与参数无关。换句话说,充分统计量\(T\)携带了样本中关于参数的所有信息。
五、简单函数:所有可测函数的基础
5.1 定义
简单函数是有限个可测集的示性函数的线性组合:
其中\(A_1, \dots, A_k \in \mathcal{F}\),\(a_1, \dots, a_k \in \mathbb{R}\)。
如果\(A_1, \dots, A_k\)是\(\Omega\)的一个分割(即两两不相交且\(\bigcup_{i=1}^k A_i = \Omega\)),则称\(\varphi\)为标准简单函数。
5.2 简单函数的可测性
命题:所有简单函数都是Borel可测的。
证明:示性函数是可测的,可测函数的线性组合仍然是可测的(这是可测函数的运算性质,见命题1.4)。证毕。□
5.3 简单函数的逼近定理
定理(简单函数逼近定理):任意非负Borel可测函数\(f\),都可以表示为一个递增的非负简单函数序列的极限:
任意Borel可测函数\(f\),都可以表示为两个非负可测函数的差:\(f = f^+ - f^-\),其中\(f^+ = \max(f, 0)\),\(f^- = \max(-f, 0)\)。因此,任意Borel可测函数都可以表示为简单函数序列的极限。
统计意义:这个定理是Lebesgue积分的基础。我们首先定义简单函数的积分,然后通过极限定义一般可测函数的积分。而随机变量的期望,本质上就是随机变量关于概率测度的Lebesgue积分。
六、可测函数的运算性质(教材命题1.4预告)
虽然教材中还没有给出,但可测函数的运算性质是后续所有内容的基础:
命题1.4:设\(f\)和\(g\)是Borel可测函数,\(c \in \mathbb{R}\)是常数,则:
- \(cf\)是可测的
- \(f + g\)是可测的
- \(fg\)是可测的
- \(f/g\)是可测的(如果\(g(\omega) \neq 0\)对所有\(\omega\))
- \(\max(f, g)\)和\(\min(f, g)\)是可测的
- 如果\(\{f_n\}\)是可测函数序列,则\(\sup f_n\)、\(\inf f_n\)、\(\limsup f_n\)、\(\liminf f_n\)都是可测的
统计意义:这个命题告诉我们,所有常见的函数运算都保持可测性。因此,随机变量的和、差、积、商、最大值、最小值、极限等,仍然是随机变量。这保证了我们可以对随机变量进行各种代数和分析运算,而不必担心结果不再是随机变量。
七、易错点与常见误区
-
混淆原像与反函数
- 原像\(f^{-1}(B)\)的定义不要求\(f\)可逆
- 即使\(f\)不是单射或满射,原像仍然有良好定义
- 原像保持所有集合运算,这是它最核心的性质
-
认为可测函数必须连续
- 连续性是拓扑性质,可测性是测度性质
- 所有连续函数都是Borel可测的,但可测函数不一定连续
- 示性函数\(I_A\)是可测的,但通常不连续
-
认为所有函数都是可测的
- 存在不可测函数,但它们的构造需要用到选择公理
- 所有在实际应用中遇到的函数都是可测的
- 不可测函数在统计学中没有实际意义
-
误解生成σ域的意义
- \(\sigma(f)\)不是\(f\)的值域,而是\(f\)的原像构成的σ域
- \(\sigma(f)\)代表了通过观察\(f\)可以获得的所有信息
- 两个不同的函数可以生成相同的σ域,这意味着它们携带相同的信息
八、与后续统计内容的关键衔接
-
随机变量的分布:随机变量\(X\)诱导了\((\mathbb{R}, \mathcal{B})\)上的一个概率测度\(P_X\),定义为\(P_X(B) = P(X \in B)\)。这个测度完全由\(X\)的分布函数\(F(x) = P(X \leq x)\)决定。
-
期望的定义:随机变量\(X\)的期望\(E[X]\)是\(X\)关于概率测度\(P\)的Lebesgue积分。简单函数的期望定义为\(E[\varphi] = \sum a_i P(A_i)\),一般可测函数的期望通过简单函数逼近定义。
-
充分统计量:统计量\(T\)是充分的,当且仅当\(\sigma(T)\)包含了样本中关于参数的所有信息。这是因子分解定理的测度论基础。
-
条件期望:给定σ域\(\mathcal{G}\)的条件期望\(E[X \mid \mathcal{G}]\)是一个\(\mathcal{G}\)可测函数,它在\(\mathcal{G}\)的每个原子上取\(X\)的条件平均。这是贝叶斯统计和鞅论的核心概念。
-
收敛模式:随机变量序列的各种收敛模式(几乎处处收敛、依概率收敛、依分布收敛)都是定义在可测函数空间上的收敛概念。
九、思考题(检验理解程度)
- 证明:如果\(f: \Omega \to \Lambda\)是可测函数,\(g: \Lambda \to \Gamma\)是可测函数,则复合函数\(g \circ f: \Omega \to \Gamma\)也是可测函数。
- 设\(X\)是随机变量,证明\(|X|\)和\(X^2\)也是随机变量。
- 设\(A\)和\(B\)是两个可测集,求\(\sigma(I_A, I_B)\)(由\(I_A\)和\(I_B\)生成的σ域),并解释它包含的信息。
邵军《数理统计》第一章:可测函数的运算性质与导出测度
这一页内容完成了可测函数理论的核心构建。命题1.4系统地证明了可测函数对所有常见代数运算和极限运算的封闭性,彻底解决了"什么样的函数是随机变量"的问题;而导出测度的引入,则将抽象概率空间上的测度转化为我们熟悉的欧氏空间上的测度,为随机变量的分布、期望和所有统计计算奠定了严格基础。
一、命题1.4:可测函数的封闭性定理(完整解读与证明)
命题1.4是可测函数理论中最重要的定理,它告诉我们:所有在实际应用中遇到的函数都是Borel可测的。
1.1 (i) Borel可测性的等价判据
命题:\(f\)是Borel函数,当且仅当对于任意\(a \in \mathbb{R}\),\(f^{-1}((a, \infty)) \in \mathcal{F}\)。
证明:
- 必要性:显然,因为\((a, \infty) \in \mathcal{B}\)(Borel σ域)。
- 充分性:我们需要证明\(f^{-1}(\mathcal{B}) \subset \mathcal{F}\)。
注意到集合类\(\{(a, \infty) \mid a \in \mathbb{R}\}\)生成Borel σ域\(\mathcal{B}\)。由原像的性质,\(f^{-1}(\mathcal{B}) = \sigma(f^{-1}(\{(a, \infty) \mid a \in \mathbb{R}\}))\)。
由条件,每个\(f^{-1}((a, \infty)) \in \mathcal{F}\),而\(\mathcal{F}\)是σ域,因此\(\sigma(f^{-1}(\{(a, \infty)\})) \subset \mathcal{F}\)。
故\(f^{-1}(\mathcal{B}) \subset \mathcal{F}\),即\(f\)是Borel可测的。证毕。□
统计意义:这是验证函数可测性最常用的判据之一。除了\((-\infty, x]\)和\((a, \infty)\),我们还可以用\([a, \infty)\)、\((-\infty, a)\)、\((a, b)\)等任何生成Borel σ域的集合类来验证可测性。
1.2 (ii) 代数运算封闭性
命题:如果\(f\)和\(g\)是Borel函数,\(a, b \in \mathbb{R}\)是常数,则:
- \(af + bg\)是Borel函数
- \(fg\)是Borel函数
- 如果\(g(\omega) \neq 0\)对所有\(\omega\),则\(f/g\)是Borel函数
证明思路(以\(f+g\)为例):
对任意\(a \in \mathbb{R}\),我们需要证明\(\{f + g > a\} \in \mathcal{F}\)。
注意到\(f(\omega) + g(\omega) > a\)当且仅当存在有理数\(r\),使得\(f(\omega) > r\)且\(g(\omega) > a - r\)。因此:
右边是可数个可测集的并,因此是可测的。由(i),\(f+g\)是Borel可测的。
统计意义:这个性质保证了我们可以对随机变量进行所有常见的代数运算,结果仍然是随机变量。例如:
- 如果\(X\)和\(Y\)是随机变量,则\(X+Y\)、\(X-Y\)、\(XY\)、\(X/Y\)(\(Y \neq 0\))都是随机变量
- 样本均值\(\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i\)是随机变量
- 样本方差\(S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2\)是随机变量
1.3 (iii) 极限运算封闭性
命题:如果\(f_1, f_2, \dots\)是Borel函数序列,则:
- \(\sup_n f_n\)、\(\inf_n f_n\)、\(\limsup_n f_n\)、\(\liminf_n f_n\)都是Borel函数
- 极限存在的集合\(A = \{\omega \mid \lim_{n \to \infty} f_n(\omega) \text{ 存在}\}\)是可测集
- 极限函数\(h(\omega) = \begin{cases} \lim_{n \to \infty} f_n(\omega), & \omega \in A \\ f_1(\omega), & \omega \notin A \end{cases}\)是Borel函数
证明思路(以\(\sup_n f_n\)为例):
对任意\(a \in \mathbb{R}\),有:
右边是可数个可测集的并,因此是可测的。由(i),\(\sup_n f_n\)是Borel可测的。
革命性意义:这是测度论积分比黎曼积分强大的根本原因。
- 黎曼可积函数序列的极限不一定黎曼可积
- 但可测函数序列的极限一定是可测的
这个性质保证了我们可以对随机变量序列取极限,结果仍然是随机变量。这是大数定律、中心极限定理等所有渐近结果的基础。
1.4 (iv) 复合函数的可测性
命题:如果\(f: (\Omega, \mathcal{F}) \to (\Lambda, \mathcal{G})\)是可测的,\(g: (\Lambda, \mathcal{G}) \to (\Delta, \mathcal{H})\)是可测的,则复合函数\(g \circ f: (\Omega, \mathcal{F}) \to (\Delta, \mathcal{H})\)是可测的。
证明:
对任意\(H \in \mathcal{H}\),有:
因为\(g\)是可测的,所以\(g^{-1}(H) \in \mathcal{G}\)。
因为\(f\)是可测的,所以\(f^{-1}(g^{-1}(H)) \in \mathcal{F}\)。
因此\((g \circ f)^{-1}(H) \in \mathcal{F}\),即\(g \circ f\)是可测的。证毕。□
统计意义:这是统计学中最常用的性质之一。它告诉我们:随机变量的Borel可测函数仍然是随机变量。例如:
- 如果\(X\)是随机变量,则\(X^2\)、\(|X|\)、\(e^X\)、\(\sin X\)、\(I(X > a)\)都是随机变量
- 如果\((X, Y)\)是随机向量,则\(X+Y\)、\(XY\)、\(\max(X, Y)\)都是随机变量
关键注意点:这个性质要求\(g\)是Borel可测的,而不是任意可测的。如果\(g\)不是Borel可测的,即使\(f\)是可测的,\(g \circ f\)也可能不可测。
1.5 (v) 连续函数的可测性
命题:设\(\Omega\)是\(\mathbb{R}^p\)上的Borel集,\(f: \Omega \to \mathbb{R}^q\)是连续函数,则\(f\)是Borel可测的。
证明思路:
连续函数的原像保持开集。因为\(\mathbb{R}^q\)上的Borel σ域由所有开集生成,所以连续函数的原像将Borel集映射为Borel集。
统计意义:这个性质进一步说明不可测函数有多罕见。我们在数学分析中遇到的所有连续函数、分段连续函数、单调函数都是Borel可测的。事实上,构造一个非Borel可测函数需要用到选择公理,它们在现实世界中没有对应物。
二、简单函数逼近定理:Lebesgue积分的基础
教材中提到:
设\(f\)是\((\Omega, \mathcal{F})\)上的一个非负Borel函数。那么,存在一列简单函数\(\{\varphi_n\}\),满足\(0 \leq \varphi_1 \leq \varphi_2 \leq \dots \leq f\)和\(\lim_{n \to \infty} \varphi_n = f\)。
定理的完整表述:
- 任意非负可测函数都可以表示为一个递增的非负简单函数序列的点态极限。
- 任意可测函数都可以表示为两个非负可测函数的差:\(f = f^+ - f^-\),其中\(f^+ = \max(f, 0)\),\(f^- = \max(-f, 0)\)。
统计意义:这个定理是Lebesgue积分的定义基础。我们定义积分的步骤是:
- 首先定义简单函数的积分:\(\int \varphi d\nu = \sum_{i=1}^k a_i \nu(A_i)\)
- 然后定义非负可测函数的积分:\(\int f d\nu = \sup \{\int \varphi d\nu \mid 0 \leq \varphi \leq f, \varphi \text{ 是简单函数}\}\)
- 最后定义一般可测函数的积分:\(\int f d\nu = \int f^+ d\nu - \int f^- d\nu\)(如果至少有一个积分有限)
而随机变量的期望,本质上就是随机变量关于概率测度的Lebesgue积分:\(E[X] = \int X dP\)。
三、导出测度:从抽象空间到欧氏空间的桥梁
3.1 定义
设\((\Omega, \mathcal{F}, \nu)\)是测度空间,\(f: (\Omega, \mathcal{F}) \to (\Lambda, \mathcal{G})\)是可测函数。则\(f\)的导出测度(pushforward measure)\(\nu \circ f^{-1}\)是\((\Lambda, \mathcal{G})\)上的测度,定义为:
3.2 导出测度是测度的证明
我们需要验证导出测度满足测度的三条公理:
- 非负性:对任意\(B \in \mathcal{G}\),\(\nu \circ f^{-1}(B) = \nu(f^{-1}(B)) \geq 0\)。
- 空集公理:\(\nu \circ f^{-1}(\varnothing) = \nu(f^{-1}(\varnothing)) = \nu(\varnothing) = 0\)。
- 可数可加性:设\(B_1, B_2, \dots\)是\(\mathcal{G}\)中两两不相交的集合,则\(f^{-1}(B_1), f^{-1}(B_2), \dots\)也是两两不相交的。因此:\[\nu \circ f^{-1}\left(\bigcup_{i=1}^\infty B_i\right) = \nu\left(f^{-1}\left(\bigcup_{i=1}^\infty B_i\right)\right) = \nu\left(\bigcup_{i=1}^\infty f^{-1}(B_i)\right) = \sum_{i=1}^\infty \nu(f^{-1}(B_i)) = \sum_{i=1}^\infty \nu \circ f^{-1}(B_i) \]
证毕。□
3.3 导出测度的核心意义
导出测度是概率论和统计学中最重要的概念之一,它的核心价值在于:
它将抽象概率空间\((\Omega, \mathcal{F}, P)\)上的所有概率计算,转化为我们熟悉的欧氏空间\((\mathbb{R}^k, \mathcal{B}^k)\)上的计算。
在实际应用中,我们几乎从不直接处理抽象的样本空间\(\Omega\)和概率测度\(P\)。我们只关心随机变量\(X\)的取值及其概率,而这些完全由\(X\)的导出测度\(P \circ X^{-1}\)决定。
四、随机变量的分布:导出测度的概率版本
4.1 定义
设\(X\)是定义在概率空间\((\Omega, \mathcal{F}, P)\)上的随机变量或随机向量。则\(X\)的分布(distribution)定义为导出测度:
\(X\)的累积分布函数(CDF)定义为:
4.2 分布的存在性定理
教材中提到:
对于任意的c.d.f.或者联合c.d.f.,存在至少一个定义在某个概率空间上的随机变量或者向量(通常有很多个),使得\(F_X = F\)。
这个定理是统计学的基石之一。它告诉我们:只要我们能写出一个满足CDF性质的函数,我们就定义了一个合法的概率分布,并且存在某个随机变量服从这个分布。
证明思路:
取概率空间为\(([0,1], \mathcal{B}_{[0,1]}, m)\)(单位区间上的Lebesgue测度),定义随机变量\(X(\omega) = F^{-1}(\omega)\),其中\(F^{-1}\)是\(F\)的广义逆函数。可以证明\(X\)的CDF就是\(F\)。
统计意义:这个定理保证了我们可以通过定义CDF来定义概率分布,而不需要关心底层的抽象概率空间。所有常见的分布(正态、二项、泊松、指数等)都是通过这种方式定义的。
五、易错点与常见误区
-
复合函数可测性的条件
- 复合函数\(g \circ f\)可测,要求\(g\)是Borel可测的,而不是任意可测的
- 如果\(g\)不是Borel可测的,即使\(f\)是可测的,\(g \circ f\)也可能不可测
-
导出测度的定义要求\(f\)可测
- 如果\(f\)不是可测的,那么\(f^{-1}(B)\)可能不在\(\mathcal{F}\)中,无法定义\(\nu(f^{-1}(B))\)
- 因此,导出测度的定义只适用于可测函数
-
混淆分布与随机变量
- 一个分布可以对应无穷多个不同的随机变量
- 两个随机变量可以有完全相同的分布,但它们可能是不同的函数,甚至是独立的
-
认为所有函数都是可测的
- 虽然在实际应用中遇到的函数都是可测的,但理论上存在不可测函数
- 不可测函数的构造需要用到选择公理,它们在统计学中没有实际意义
六、与后续统计内容的关键衔接
-
随机变量函数的分布:如果\(X\)是随机变量,\(g\)是Borel可测函数,则\(Y = g(X)\)的分布是\(P_Y = P_X \circ g^{-1}\)。这是计算随机变量函数分布的严格理论基础。
-
积分变换公式:设\(X\)是随机变量,\(g\)是Borel可测函数,则\(E[g(X)] = \int_{\mathbb{R}} g(x) dP_X(x)\)。这个公式将抽象空间上的积分转化为实数空间上的积分,是所有期望计算的基础。
-
收敛模式:随机变量序列的各种收敛模式(几乎处处收敛、依概率收敛、依分布收敛)都可以用导出测度来描述。特别是依分布收敛,就是导出测度序列的弱收敛。
-
统计量的分布:统计量\(T = T(X_1, \dots, X_n)\)是样本的可测函数,其分布是样本联合分布的导出测度。所有假设检验和置信区间的构造都依赖于统计量的分布。
-
条件分布:条件分布可以看作是条件测度的导出测度,这是贝叶斯统计和条件推断的基础。
七、思考题(检验理解程度)
- 证明:如果\(f\)和\(g\)是Borel函数,则\(\max(f, g)\)和\(\min(f, g)\)也是Borel函数。
- 设\(X\)是随机变量,CDF为\(F\)。证明\(F(X)\)服从\([0,1]\)上的均匀分布(概率积分变换)。
- 解释为什么导出测度的概念对于统计学是必不可少的。
邵军《数理统计》第一章:离散累积分布函数(例1.3深度解析)
这个例子是CDF刻画定理的第一个具体实例,它完整展示了如何从一个满足CDF性质的函数,构造出对应的概率空间和随机变量。离散分布是统计学中最基础、最直观的分布类型,所有离散型随机变量(伯努利、二项、泊松、几何等)都可以纳入这个统一的数学框架。
一、例子的核心内容与直观解释
1.1 离散CDF的定义
设\(a_1 < a_2 < a_3 < \dots\)是一列互不相同的实数(随机变量的可能取值),\(p_1, p_2, p_3, \dots\)是一列正数,满足\(\sum_{n=1}^\infty p_n = 1\)(概率归一性)。定义函数\(F: \mathbb{R} \to [0,1]\)为:
直观解释:
- 这个函数是一个阶梯函数,在每个点\(a_n\)处有一个高度为\(p_n\)的跳跃
- 在两个相邻跳跃点\(a_n\)和\(a_{n+1}\)之间,函数值保持不变
- 函数值从0开始,随着\(x\)的增加,每次遇到\(a_n\)就向上跳\(p_n\),最终趋近于1
1.2 验证F是合法的CDF
根据CDF刻画定理,我们需要验证\(F\)满足四个性质:
-
非降性:若\(x_1 < x_2\),则\(F(x_1) \leq F(x_2)\)。
- 证明:如果\(x_1 < x_2 < a_1\),则\(F(x_1)=F(x_2)=0\)。
- 如果\(a_n \leq x_1 < x_2 < a_{n+1}\),则\(F(x_1)=F(x_2)=\sum_{i=1}^n p_i\)。
- 如果\(x_1 < a_n \leq x_2\),则\(F(x_1) \leq \sum_{i=1}^{n-1} p_i \leq \sum_{i=1}^n p_i \leq F(x_2)\)。
因此\(F\)是非降的。
-
右连续性:对任意\(x \in \mathbb{R}\),\(\lim_{y \to x^+} F(y) = F(x)\)。
- 证明:如果\(x\)不是跳跃点,即存在\(n\)使得\(a_n < x < a_{n+1}\),则当\(y\)足够接近\(x\)时,\(F(y)=F(x)\),故右连续。
- 如果\(x=a_n\)是跳跃点,则当\(y \to a_n^+\)时,\(y\)落在区间\([a_n, a_{n+1})\)内,故\(F(y)=\sum_{i=1}^n p_i = F(a_n)\),右连续成立。
-
极限性质:
- \(\lim_{x \to -\infty} F(x) = 0\):显然,当\(x < a_1\)时,\(F(x)=0\)。
- \(\lim_{x \to +\infty} F(x) = 1\):当\(x \to +\infty\)时,\(F(x) = \sum_{i=1}^n p_i\),其中\(n \to \infty\),故极限为\(\sum_{i=1}^\infty p_i = 1\)。
因此,\(F\)是一个合法的累积分布函数。
二、概率空间的显式构造:从CDF到随机变量
教材中给出了一个非常重要的构造:对于任意离散CDF,我们可以显式地构造出一个概率空间和一个随机变量,使得该随机变量的CDF正好是给定的F。
2.1 构造步骤
- 样本空间:\(\Omega = \{a_1, a_2, a_3, \dots\}\)(随机变量的所有可能取值)。
- σ域:\(\mathcal{F}\)是\(\Omega\)的所有子集构成的集合类。
- 因为\(\Omega\)是可数集,所以所有子集都是可测的,不需要引入更复杂的σ域。
- 概率测度:对任意\(A \in \mathcal{F}\),定义\[P(A) = \sum_{i: a_i \in A} p_i \]即事件\(A\)的概率等于\(A\)中所有元素对应的\(p_i\)之和。
- 随机变量:定义\(X: \Omega \to \mathbb{R}\)为\(X(\omega) = \omega\),即恒等函数。
2.2 验证P是概率测度
我们需要验证\(P\)满足概率测度的三条公理:
- 非负性:对任意\(A \in \mathcal{F}\),\(P(A) = \sum_{i: a_i \in A} p_i \geq 0\),因为所有\(p_i > 0\)。
- 归一性:\(P(\Omega) = \sum_{i=1}^\infty p_i = 1\),这是我们的假设条件。
- 可数可加性:设\(A_1, A_2, \dots\)是\(\mathcal{F}\)中两两不相交的集合,则\[P\left(\bigcup_{j=1}^\infty A_j\right) = \sum_{i: a_i \in \bigcup_{j=1}^\infty A_j} p_i = \sum_{j=1}^\infty \sum_{i: a_i \in A_j} p_i = \sum_{j=1}^\infty P(A_j) \]
因此,\(P\)是一个合法的概率测度。
2.3 验证X的CDF是F
我们需要证明对任意\(x \in \mathbb{R}\),\(P(X \leq x) = F(x)\)。
- 如果\(x < a_1\),则\(\{X \leq x\} = \varnothing\),故\(P(X \leq x) = 0 = F(x)\)。
- 如果\(a_n \leq x < a_{n+1}\),则\(\{X \leq x\} = \{a_1, a_2, \dots, a_n\}\),故\[P(X \leq x) = P(\{a_1, \dots, a_n\}) = \sum_{i=1}^n p_i = F(x) \]
因此,\(X\)的CDF正好是我们定义的\(F\)。
这个构造的革命性意义:它证明了任何离散CDF都对应着某个概率空间上的随机变量。这不是一个抽象的存在性定理,而是一个显式的构造方法。
三、离散CDF的本质特征与概率质量函数(PMF)
3.1 离散CDF的本质特征
一个CDF是离散的,当且仅当它是一个阶梯函数,且所有跳跃点构成一个可数集。
关键性质:对于离散随机变量\(X\),其CDF\(F\)在点\(a_n\)处的跳跃高度等于\(X\)取\(a_n\)的概率:
其中\(F(a_n^-) = \lim_{x \to a_n^-} F(x)\)是\(F\)在\(a_n\)处的左极限。
3.2 概率质量函数(PMF)
对于离散随机变量\(X\),其概率质量函数(Probability Mass Function, PMF)定义为:
PMF具有以下性质:
- \(p(x) \geq 0\)对所有\(x \in \mathbb{R}\)
- \(\sum_{x \in \mathbb{R}} p(x) = 1\)
- \(F(x) = \sum_{t \leq x} p(t)\)(CDF是PMF的累积和)
PMF与CDF的一一对应关系:
- 给定PMF\(p(x)\),可以唯一确定CDF\(F(x) = \sum_{t \leq x} p(t)\)
- 给定CDF\(F(x)\),可以唯一确定PMF\(p(x) = F(x) - F(x^-)\)
因此,离散分布可以用CDF或PMF中的任意一个来完全描述,两者是等价的。在实际应用中,PMF通常比CDF更方便使用。
四、常见离散分布举例
所有常见的离散分布都是上述框架的特例:
4.1 伯努利分布(Bernoulli Distribution)
- 可能取值:\(a_1=0\),\(a_2=1\)
- PMF:\(p(0)=1-p\),\(p(1)=p\),其中\(0 < p < 1\)
- CDF:\[F(x) = \begin{cases} 0, & x < 0 \\ 1-p, & 0 \leq x < 1 \\ 1, & x \geq 1 \end{cases} \]
- 应用:描述一次试验中成功或失败的结果。
4.2 二项分布(Binomial Distribution)
- 可能取值:\(a_k = k\),\(k=0,1,\dots,n\)
- PMF:\(p(k) = \binom{n}{k} p^k (1-p)^{n-k}\)
- 应用:描述\(n\)次独立伯努利试验中成功的次数。
4.3 泊松分布(Poisson Distribution)
- 可能取值:\(a_k = k\),\(k=0,1,2,\dots\)
- PMF:\(p(k) = e^{-\lambda} \frac{\lambda^k}{k!}\),其中\(\lambda > 0\)
- 应用:描述单位时间或单位空间内稀有事件发生的次数。
4.4 几何分布(Geometric Distribution)
- 可能取值:\(a_k = k\),\(k=1,2,3,\dots\)
- PMF:\(p(k) = (1-p)^{k-1} p\)
- 应用:描述首次成功所需的试验次数。
五、与测度论概念的深刻联系
5.1 离散测度与计数测度
教材中构造的概率测度\(P\)是一个离散测度,它的所有质量都集中在可数个点\(a_1, a_2, \dots\)上。
更准确地说,\(P\)是关于\(\Omega\)上的计数测度\(\nu\)的绝对连续测度,其Radon-Nikodym导数就是PMF\(p(x)\):
这是离散分布的测度论表示。它与连续分布的表示完全对称:
- 离散分布:关于计数测度的密度是PMF
- 连续分布:关于Lebesgue测度的密度是PDF
这种对称性是测度论框架最强大的优势之一,它允许我们用统一的语言处理所有类型的分布。
5.2 导出测度的视角
从导出测度的角度看,离散随机变量\(X\)的分布\(P_X = P \circ X^{-1}\)是\((\mathbb{R}, \mathcal{B})\)上的一个概率测度,它满足:
这个测度就是我们通常所说的"离散分布"。它完全由跳跃点\(\{a_n\}\)和跳跃高度\(\{p_n\}\)决定。
六、易错点与常见误区
-
混淆离散CDF的左连续与右连续
- 离散CDF是右连续的,不是左连续的
- 在跳跃点\(a_n\)处,\(F(a_n)\)包含了\(X=a_n\)的概率,即\(F(a_n) = P(X \leq a_n)\)
- 左极限\(F(a_n^-) = P(X < a_n)\),不包含\(X=a_n\)的概率
-
认为离散随机变量的取值一定是整数
- 离散随机变量的取值可以是任意实数,只要它们构成一个可数集
- 例如,\(X\)可以取\(1/2, 1/3, 1/4, \dots\),这仍然是一个离散随机变量
-
忽略可数可加性在离散测度中的作用
- 离散测度的可数可加性保证了我们可以对可数个事件的概率求和
- 这是计算离散随机变量概率的基础
七、统计意义与后续内容衔接
-
离散分布是统计推断的基础:许多实际问题中的数据都是离散的(如计数数据、分类数据),离散分布是描述这些数据的基本工具。
-
期望的计算:离散随机变量的期望定义为\(E[X] = \sum_{x} x p(x)\),这本质上是关于计数测度的Lebesgue积分。我们将在后续章节中详细讨论期望的定义和性质。
-
条件概率与独立性:离散分布的条件概率和独立性可以用PMF简单地表示,这是贝叶斯统计和概率图模型的基础。
-
极限定理:大数定律和中心极限定理同样适用于离散随机变量,它们是大样本统计推断的基础。
八、思考题(检验理解程度)
- 设\(X\)服从参数为\(\lambda\)的泊松分布,写出其CDF的表达式,并验证它满足CDF的四个性质。
- 证明:如果\(F\)是离散CDF,则其不连续点的集合是可数的。
- 构造一个离散随机变量,其可能取值为所有正有理数,且每个正有理数的概率都大于0。
邵军《数理统计》第一章:连续累积分布函数(例1.4深度解析)
这个例子是连续型随机变量的入门,与离散CDF形成了概率论中最基本的二分法。均匀分布和指数分布是统计学中最基础、应用最广泛的连续分布,它们的CDF完美体现了连续分布的核心特征:处处连续、无跳跃点、单点概率为零。
一、连续CDF的定义与本质特征
1.1 严格定义
一个CDF\(F\)称为连续CDF,当且仅当\(F(x)\)是\(\mathbb{R}\)上的处处连续函数。
与离散CDF的本质区别:
- 离散CDF是阶梯函数,在可数个点处有跳跃,跳跃高度等于对应点的概率
- 连续CDF没有任何跳跃点,在所有点处都连续
- 更准确地说,统计学中几乎所有的连续CDF都是绝对连续CDF,即存在非负可测函数\(f\),使得\(F(x) = \int_{-\infty}^x f(t) dt\)
1.2 连续分布的核心性质
对于任意连续型随机变量\(X\),其CDF\(F\)满足:
即连续型随机变量取任何单个点的概率都为零。
关键解读:
- 这不是一个技术细节,而是连续分布最根本的性质
- "单点概率为零"不代表"该事件不可能发生",而是因为在Lebesgue测度下,单点集的测度为零
- 对于连续分布,我们只关心随机变量落在某个区间内的概率,而不是取某个特定值的概率
- 因此,对于连续型随机变量,\(P(a < X < b) = P(a \leq X < b) = P(a < X \leq b) = P(a \leq X \leq b) = F(b) - F(a)\)
二、均匀分布CDF:等可能性的数学表达
2.1 定义与验证
区间\([a,b]\)上的均匀分布(Uniform Distribution)CDF定义为:
验证CDF性质:
- 非降性:当\(x_1 < x_2\)时,显然\(F(x_1) \leq F(x_2)\)
- 右连续性:在\(x=a\)处,\(\lim_{x \to a^+} F(x) = 0 = F(a)\);在\(x=b\)处,\(\lim_{x \to b^+} F(x) = 1 = F(b)\);在其他点处显然连续
- 极限性质:\(\lim_{x \to -\infty} F(x) = 0\),\(\lim_{x \to +\infty} F(x) = 1\)
因此,\(F\)是一个合法的CDF。
2.2 直观意义:等可能性
均匀分布的核心是等可能性:随机变量落在区间\([a,b]\)内任意等长度的子区间的概率相等。
数学表达:对任意\([c,d] \subset [a,b]\),有
即概率与区间长度成正比,与区间的位置无关。
2.3 测度论视角
均匀分布的概率测度是\([a,b]\)上的Lebesgue测度归一化的结果:
其中\(m\)是Lebesgue测度。
这意味着:
- 均匀分布的概率就是"长度占比"
- 它是\([a,b]\)上唯一满足平移不变性的概率测度
- 所有连续分布都可以通过均匀分布的逆变换生成(概率积分变换)
三、指数分布CDF:无记忆性的唯一分布
3.1 定义与验证
参数为\(\theta > 0\)的指数分布(Exponential Distribution)CDF定义为:
验证CDF性质:
- 非降性:\(F'(x) = \frac{1}{\theta} e^{-x/\theta} > 0\)对所有\(x > 0\)成立,故\(F\)严格递增
- 右连续性:在\(x=0\)处,\(\lim_{x \to 0^+} F(x) = 0 = F(0)\);在其他点处显然连续
- 极限性质:\(\lim_{x \to -\infty} F(x) = 0\),\(\lim_{x \to +\infty} F(x) = \lim_{x \to +\infty} (1 - e^{-x/\theta}) = 1\)
因此,\(F\)是一个合法的CDF。
3.2 核心性质:无记忆性
指数分布是唯一具有无记忆性的连续分布,这也是它在可靠性理论、排队论、生存分析中广泛应用的根本原因。
无记忆性的定义:对任意\(s, t > 0\),有
直观解释:如果\(X\)表示某个元件的寿命,那么无记忆性意味着"元件已经使用了\(s\)小时后,还能再使用\(t\)小时的概率,与一个新元件能使用\(t\)小时的概率相同"。换句话说,元件"不会老化"。
证明:
证毕。□
四、概率密度函数(PDF):连续分布的概率质量
虽然教材说"不涉及下一节的积分和导数",但CDF与PDF的关系是连续分布的核心,这里提前给出铺垫。
4.1 PDF的定义
如果CDF\(F\)是绝对连续的,那么存在非负可测函数\(f\),使得对所有\(x \in \mathbb{R}\),有
这个函数\(f\)称为\(F\)对应的概率密度函数(Probability Density Function, PDF)。
由微积分基本定理,在\(f\)的连续点处,有
4.2 均匀分布与指数分布的PDF
- 均匀分布\(U(a,b)\)的PDF:\[f(x) = \begin{cases} \frac{1}{b - a}, & a < x < b \\ 0, & \text{其他} \end{cases} \]
- 指数分布\(Exp(\theta)\)的PDF:\[f(x) = \begin{cases} \frac{1}{\theta} e^{-x/\theta}, & x > 0 \\ 0, & \text{其他} \end{cases} \]
4.3 PDF的性质
- \(f(x) \geq 0\)对所有\(x \in \mathbb{R}\)
- \(\int_{-\infty}^{+\infty} f(x) dx = 1\)
- 对任意Borel集\(A\),\(P(X \in A) = \int_A f(x) dx\)
关键注意点:PDF\(f(x)\)本身不是概率,而是概率的"密度"。概率是PDF在某个区间上的积分,而不是PDF在某个点的值。
五、测度论视角下的统一框架
离散分布和连续分布在测度论框架下得到了完美的统一:
| 分布类型 | 支配测度 | 密度函数 | 概率计算 | CDF表达式 |
|---|---|---|---|---|
| 离散分布 | 计数测度\(\nu\) | 概率质量函数PMF \(p(x)\) | \(P(X \in A) = \sum_{x \in A} p(x)\) | \(F(x) = \sum_{t \leq x} p(t)\) |
| 连续分布 | Lebesgue测度\(m\) | 概率密度函数PDF \(f(x)\) | \(P(X \in A) = \int_A f(x) dx\) | \(F(x) = \int_{-\infty}^x f(t) dt\) |
统一表述:任何绝对连续的概率测度\(P\)关于某个σ有限支配测度\(\mu\)都有Radon-Nikodym导数\(f = dP/d\mu\),这个导数就是对应的密度函数。
六、常见误区与补充说明
-
混淆连续CDF与绝对连续CDF
- 存在连续但不是绝对连续的CDF,最著名的例子是Cantor函数(魔鬼阶梯)
- Cantor函数是连续的、非降的,从0增加到1,但它的导数几乎处处为零
- 对应的分布称为奇异分布,它既不是离散的也不是连续的,在统计学中很少遇到
-
认为PDF的值不能大于1
- PDF的值可以大于1,它不是概率,而是概率密度
- 例如,\(U(0, 0.5)\)的PDF在\((0, 0.5)\)内的值为2,大于1
- 只有PDF在整个实数轴上的积分必须等于1
-
误解"单点概率为零"
- "单点概率为零"不代表"该事件不可能发生"
- 例如,均匀分布\(U(0,1)\)中,\(P(X=0.5)=0\),但\(X=0.5\)是完全可能发生的
- 这是因为Lebesgue测度下单点集的测度为零,而概率是测度的归一化
七、统计意义与后续内容衔接
-
连续分布是统计学的核心:正态分布、t分布、F分布、卡方分布等所有经典统计推断中用到的分布都是连续分布。
-
随机数生成:所有连续分布的随机数都可以通过\(U(0,1)\)均匀分布的逆变换生成,这是计算机模拟的基础。
-
期望与矩的计算:连续型随机变量的期望定义为\(E[X] = \int_{-\infty}^{+\infty} x f(x) dx\),这本质上是关于Lebesgue测度的积分。
-
似然函数:对于连续型样本,似然函数是样本PDF的乘积,这是极大似然估计的基础。
-
中心极限定理:中心极限定理告诉我们,大量独立同分布随机变量的和渐近服从正态分布,这是大样本统计推断的基石。
八、思考题(检验理解程度)
- 设\(X \sim U(0,1)\),计算\(P(0.2 < X < 0.5)\)和\(P(X = 0.3)\)。
- 设\(X \sim Exp(\theta)\),证明\(Y = X/\theta \sim Exp(1)\)(标准指数分布)。
- 证明指数分布是唯一具有无记忆性的连续分布(提示:设\(G(x) = P(X > x)\),证明无记忆性蕴含\(G(x + y) = G(x)G(y)\),该函数方程的唯一解是指数函数)。
正态分布累积分布函数(CDF):统计学的基石
正态分布(Normal Distribution),又称高斯分布(Gaussian Distribution),是整个概率论和统计学中最重要、应用最广泛的分布。它不仅是许多自然现象和测量误差的天然模型,更是中心极限定理的极限分布,所有大样本统计推断的理论基础都建立在正态分布之上。
一、正态分布的定义与基本形式
1.1 一般正态分布的PDF与CDF
若随机变量\(X\)的概率密度函数(PDF)为:
其中\(\mu \in \mathbb{R}\)为位置参数(均值),\(\sigma > 0\)为尺度参数(标准差),则称\(X\)服从参数为\((\mu, \sigma^2)\)的正态分布,记为\(X \sim N(\mu, \sigma^2)\)。
对应的累积分布函数(CDF)为:
关键事实:正态分布的CDF没有初等函数表达式,即无法用有限次的加减乘除、指数、对数、三角函数等基本函数表示。这就是为什么我们需要标准正态分布表或计算机软件来计算正态分布的概率。
1.2 验证正态CDF的合法性
我们可以直接验证\(F(x; \mu, \sigma^2)\)满足CDF的所有四个性质:
- 非降性:因为PDF\(f(x) > 0\)对所有\(x \in \mathbb{R}\)成立,所以CDF是严格递增函数。
- 处处连续性:作为变上限积分,CDF在\(\mathbb{R}\)上处处连续(不仅是右连续)。
- 极限性质:
- \(\lim_{x \to -\infty} F(x) = 0\):当\(x \to -\infty\)时,积分区间趋于空集,积分值为0。
- \(\lim_{x \to +\infty} F(x) = 1\):这是著名的高斯积分结果:\[\int_{-\infty}^{+\infty} e^{-\frac{(t-\mu)^2}{2\sigma^2}} dt = \sqrt{2\pi}\sigma \]因此整个实数轴上的积分值为1,满足概率归一性。
二、标准正态分布:所有正态分布的基准
2.1 定义与标准化变换
当\(\mu=0\)且\(\sigma=1\)时,正态分布称为标准正态分布,记为\(Z \sim N(0,1)\)。
- 标准正态PDF:\(\phi(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}\)
- 标准正态CDF:\(\Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^x e^{-\frac{t^2}{2}} dt\)
标准化变换:若\(X \sim N(\mu, \sigma^2)\),则
证明:
作变量替换\(u = \frac{t - \mu}{\sigma}\),则\(dt = \sigma du\),代入得:
证毕。□
统计意义:标准化变换是计算任意正态分布概率的通用方法。任何正态分布的概率计算都可以转化为标准正态分布的概率计算,而标准正态分布的CDF值已经被制成表格或内置于所有统计软件中。
2.2 标准正态CDF的核心性质
-
对称性:\(\Phi(-x) = 1 - \Phi(x)\)
- 这是标准正态PDF关于原点对称的直接结果:\(\phi(-x) = \phi(x)\)
- 这个性质可以将负分位数的计算转化为正分位数的计算,极大地简化了标准正态表的设计
-
特殊点的值:
- \(\Phi(0) = 0.5\):标准正态分布的中位数为0
- \(\Phi(1) \approx 0.8413\),\(\Phi(-1) \approx 0.1587\)
- \(\Phi(2) \approx 0.9772\),\(\Phi(-2) \approx 0.0228\)
- \(\Phi(3) \approx 0.9987\),\(\Phi(-3) \approx 0.0013\)
-
68-95-99.7法则(经验法则):
对于任意正态分布\(N(\mu, \sigma^2)\),有:- 约68%的概率落在\((\mu - \sigma, \mu + \sigma)\)范围内
- 约95%的概率落在\((\mu - 2\sigma, \mu + 2\sigma)\)范围内
- 约99.7%的概率落在\((\mu - 3\sigma, \mu + 3\sigma)\)范围内
这是实际应用中最常用的法则,它给出了正态分布数据的大致分布范围,是质量控制、异常值检测等领域的基础。
三、正态分布的核心数学性质
3.1 矩与数字特征
若\(X \sim N(\mu, \sigma^2)\),则:
- 期望:\(E[X] = \mu\)
- 方差:\(\text{Var}(X) = \sigma^2\)
- 偏度:\(\text{Skew}(X) = 0\)(分布关于\(\mu\)对称)
- 峰度:\(\text{Kurt}(X) = 3\)(标准峰度为0)
更一般地,正态分布的所有奇数阶中心矩都为0,偶数阶中心矩为:
其中\((2k-1)!! = 1 \times 3 \times 5 \times \dots \times (2k-1)\)是双阶乘。
3.2 再生性:正态分布的"遗传"性质
正态分布最强大的性质之一是再生性:独立正态随机变量的线性组合仍然是正态分布。
定理:设\(X_1 \sim N(\mu_1, \sigma_1^2), X_2 \sim N(\mu_2, \sigma_2^2), \dots, X_n \sim N(\mu_n, \sigma_n^2)\)相互独立,\(a_1, a_2, \dots, a_n\)为常数,则:
推论1(样本均值的分布):若\(X_1, \dots, X_n\)是来自\(N(\mu, \sigma^2)\)的独立同分布样本,则样本均值
推论2(两个独立正态变量的差):若\(X \sim N(\mu_1, \sigma_1^2)\)与\(Y \sim N(\mu_2, \sigma_2^2)\)独立,则
统计意义:再生性是所有经典参数统计方法的基础。t检验、F检验、方差分析、线性回归等方法的抽样分布推导,都完全依赖于正态分布的再生性。
3.3 Cramér定理:再生性的逆定理
一个比再生性更深刻的结果是Cramér定理:
如果两个独立随机变量\(X\)和\(Y\)的和\(X+Y\)服从正态分布,那么\(X\)和\(Y\)各自都服从正态分布。
这个定理是正态分布独有的性质,没有任何其他分布具有这样的逆再生性。它从另一个角度说明了正态分布的特殊性和基础性地位。
四、测度论视角下的正态分布
4.1 正态测度
正态分布\(N(\mu, \sigma^2)\)对应的概率测度\(P_{\mu, \sigma^2}\)是\((\mathbb{R}, \mathcal{B})\)上的一个绝对连续测度,其关于Lebesgue测度\(m\)的Radon-Nikodym导数就是正态PDF:
4.2 特征函数
正态分布最简洁、最强大的表示是其特征函数:
特征函数完全刻画了一个分布的所有性质,并且独立随机变量和的特征函数等于各自特征函数的乘积。正态分布的特征函数具有非常简单的指数形式,这使得它在证明中心极限定理和再生性时极其方便。
再生性的特征函数证明:
设\(X_1, \dots, X_n\)独立,\(X_i \sim N(\mu_i, \sigma_i^2)\),则\(\sum a_i X_i\)的特征函数为:
这正是\(N\left(\sum a_i \mu_i, \sum a_i^2 \sigma_i^2\right)\)的特征函数。由特征函数的唯一性定理,\(\sum a_i X_i\)服从该正态分布。证毕。□
五、正态分布在统计学中的核心地位
正态分布之所以成为统计学的基石,主要有以下四个原因:
-
中心极限定理的极限分布
中心极限定理告诉我们:无论总体分布是什么,只要样本量足够大,独立同分布随机变量的和(或均值)就渐近服从正态分布。这意味着,当样本量很大时,我们可以用正态分布来近似任何分布的统计量的抽样分布,这是大样本统计推断的基础。 -
自然现象的普遍模型
许多自然现象和测量误差都天然地服从或近似服从正态分布,例如:- 人类的身高、体重、智商
- 物理测量中的误差
- 工业生产中的产品质量指标
- 金融市场中的收益率
-
极佳的数学性质
正态分布具有其他分布无法比拟的良好数学性质:- 再生性:独立正态变量的线性组合仍然是正态的
- 完全由均值和方差两个参数决定
- 条件分布仍然是正态分布
- 信息论意义下的最大熵分布:在给定均值和方差的所有分布中,正态分布具有最大的熵(不确定性)
-
经典统计方法的基础
几乎所有经典的参数统计方法都是基于正态假设的,包括:- 单样本和两样本t检验
- 方差分析(ANOVA)
- 线性回归和相关分析
- 多元统计分析(主成分分析、因子分析等)
六、常见误区与注意事项
-
混淆PDF和CDF
- PDF\(f(x)\)是概率密度,不是概率,其值可以大于1
- CDF\(F(x)\)是概率,取值在\([0,1]\)之间
- 概率是PDF在区间上的积分,等于CDF在区间端点的差
-
认为正态分布的CDF有初等表达式
- 正态CDF无法用基本函数表示,必须通过数值积分或近似公式计算
- 标准正态分布表给出的是\(\Phi(x)\)的近似值,计算机软件使用更精确的数值算法
-
将对称性等同于正态性
- 正态分布是对称分布,但对称分布不一定是正态分布
- 例如,t分布、柯西分布、均匀分布都是对称分布,但它们不是正态分布
-
忽略正态分布的参数意义
- \(\mu\)是位置参数,决定了分布的中心位置
- \(\sigma\)是尺度参数,决定了分布的分散程度
- 改变\(\mu\)只会平移分布,不会改变其形状;改变\(\sigma\)只会缩放分布,不会改变其中心位置
七、典型例题与计算
例题:设\(X \sim N(2, 9)\),计算:
- \(P(X < 5)\)
- \(P(-1 < X < 5)\)
- 找到\(c\)使得\(P(X > c) = 0.05\)
解答:
首先进行标准化变换:\(Z = \frac{X - 2}{3} \sim N(0,1)\)。
-
\(P(X < 5) = P\left(Z < \frac{5 - 2}{3}\right) = P(Z < 1) = \Phi(1) \approx 0.8413\)
-
\(P(-1 < X < 5) = P\left(\frac{-1 - 2}{3} < Z < \frac{5 - 2}{3}\right) = P(-1 < Z < 1) = \Phi(1) - \Phi(-1) = 2\Phi(1) - 1 \approx 2 \times 0.8413 - 1 = 0.6826\)
这正好验证了68-95-99.7法则。 -
\(P(X > c) = 0.05\)等价于\(P(X \leq c) = 0.95\),即
\[P\left(Z \leq \frac{c - 2}{3}\right) = 0.95 \]查标准正态表得\(\Phi(1.645) \approx 0.95\),故
\[\frac{c - 2}{3} = 1.645 \implies c = 2 + 3 \times 1.645 = 6.935 \]
八、思考题(检验理解程度)
- 设\(X \sim N(\mu, \sigma^2)\),证明\(aX + b \sim N(a\mu + b, a^2 \sigma^2)\),其中\(a \neq 0\)。
- 设\(X_1, \dots, X_n\)是来自\(N(\mu, \sigma^2)\)的独立同分布样本,证明样本均值\(\bar{X}\)与样本方差\(S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2\)相互独立(这是t检验的基础)。
- 解释为什么中心极限定理使得正态分布在统计学中如此重要。
posted on 2026-05-08 11:30 Indian_Mysore 阅读(5) 评论(0) 收藏 举报
浙公网安备 33010602011771号