3.5条件分布与条件期望
离散型随机变量的条件分布 深度讲解与推导证明
各位同学,今天我们系统讲解二维离散型随机变量的条件分布,这是研究随机变量相依关系的核心工具。我会从基础概念溯源,完成严谨的推导证明,结合例题拆解计算逻辑,最后用表格完成全知识点归纳。
一、前置知识铺垫(学习的基础前提)
在学习条件分布前,我们必须先明确两个核心的前置概念,所有推导都建立在这两个基础之上:
1. 条件概率的经典定义
对于任意两个随机事件\(A\)和\(B\),若事件\(B\)的发生概率\(P(B)>0\),则在事件\(B\)发生的条件下,事件\(A\)发生的条件概率为:
这个公式是条件分布的“源头”,条件分布本质上是条件概率在随机变量取值场景下的推广。
2. 二维离散型随机变量的联合分布与边缘分布
设二维离散型随机变量\((X,Y)\),\(X\)的可能取值为\(x_1,x_2,\dots\),\(Y\)的可能取值为\(y_1,y_2,\dots\),我们定义:
-
联合分布列:描述\(X,Y\)同时取某个值的概率,记为
\[p_{ij}=P(X=x_i,Y=y_j),\quad i=1,2,\dots,\ j=1,2,\dots \]联合分布列满足两条基本性质:① 非负性\(p_{ij}\geq0\);② 规范性\(\sum\limits_{i=1}^{\infty}\sum\limits_{j=1}^{\infty}p_{ij}=1\)。
-
边缘分布列:描述单个随机变量的概率分布,是联合分布列的“行和”与“列和”:
- \(X\)的边缘分布列:\(p_{i\cdot}=P(X=x_i)=\sum\limits_{j=1}^{\infty}p_{ij},\quad i=1,2,\dots\)
- \(Y\)的边缘分布列:\(p_{\cdot j}=P(Y=y_j)=\sum\limits_{i=1}^{\infty}p_{ij},\quad j=1,2,\dots\)
边缘分布列同样满足非负性与规范性,例如\(\sum\limits_{i=1}^{\infty}p_{i\cdot}=1\)。
二、条件分布的引入背景与核心意义
二维随机变量\((X,Y)\)之间的关系分为独立与相依两类:
- 若\(X\)与\(Y\)独立,那么一个变量的取值不会影响另一个变量的概率分布;
- 但在绝大多数实际问题中,随机变量的取值是相互影响的(比如人的身高\(Y\)和体重\(X\),限定身高\(Y=1.7m\)时,体重\(X\)的分布和无限制时的分布完全不同)。
而条件分布,就是用来精准刻画“给定一个变量取某值时,另一个变量的概率分布规律”的工具,是研究随机变量相依关系的核心手段。
三、离散型随机变量条件分布列的定义、推导与性质证明
1. 给定\(Y=y_j\)条件下\(X\)的条件分布列
定义推导
我们将条件概率公式中的事件做替换:令\(A=\{X=x_i\}\),\(B=\{Y=y_j\}\),且要求\(P(B)=P(Y=y_j)=p_{\cdot j}>0\)(保证分母有意义,事件\(B\)不是不可能事件)。
将事件代入条件概率公式,直接得到:
我们将这个概率记为\(p_{i|j}\),给出严格定义:
定义3.5.1(条件分布列) 对一切使\(P(Y=y_j)=p_{\cdot j}=\sum\limits_{i=1}^{\infty}p_{ij}>0\)的\(y_j\),称
\[\boldsymbol{p_{i|j}=P(X=x_i|Y=y_j)=\frac{p_{ij}}{p_{\cdot j}},\quad i=1,2,\dots} \]为给定\(Y=y_j\)条件下\(X\)的条件分布列。
合法性证明(分布列的充要条件)
一个数列能成为分布列,必须同时满足非负性和规范性,我们严格证明\(p_{i|j}\)满足这两条性质:
-
非负性:
由联合分布列的非负性\(p_{ij}\geq0\),且前提\(p_{\cdot j}>0\),因此\[p_{i|j}=\frac{p_{ij}}{p_{\cdot j}}\geq0,\quad \forall i=1,2,\dots \]非负性成立。
-
规范性:
对所有\(i\)求和,结合边缘分布列的定义,有:\[\sum_{i=1}^{\infty}p_{i|j}=\sum_{i=1}^{\infty}\frac{p_{ij}}{p_{\cdot j}}=\frac{1}{p_{\cdot j}}\cdot\sum_{i=1}^{\infty}p_{ij}=\frac{1}{p_{\cdot j}}\cdot p_{\cdot j}=1 \]规范性成立。
由此证明,\(p_{i|j}\)是一个合法的概率分布列,完整描述了给定\(Y=y_j\)时,\(X\)所有可能取值的概率分布规律。
2. 给定\(X=x_i\)条件下\(Y\)的条件分布列
定义推导
同理,我们令\(A=\{Y=y_j\}\),\(B=\{X=x_i\}\),且要求\(P(B)=P(X=x_i)=p_{i\cdot}>0\),代入条件概率公式得:
记这个概率为\(p_{j|i}\),给出严格定义:
对一切使\(P(X=x_i)=p_{i\cdot}=\sum\limits_{j=1}^{\infty}p_{ij}>0\)的\(x_i\),称
\[\boldsymbol{p_{j|i}=P(Y=y_j|X=x_i)=\frac{p_{ij}}{p_{i\cdot}},\quad j=1,2,\dots} \]为给定\(X=x_i\)条件下\(Y\)的条件分布列。
合法性证明
同样证明其满足分布列的两条核心性质:
- 非负性:\(p_{ij}\geq0\),\(p_{i\cdot}>0\),因此\(p_{j|i}=\frac{p_{ij}}{p_{i\cdot}}\geq0,\ \forall j=1,2,\dots\)
- 规范性:\[\sum_{j=1}^{\infty}p_{j|i}=\sum_{j=1}^{\infty}\frac{p_{ij}}{p_{i\cdot}}=\frac{1}{p_{i\cdot}}\cdot\sum_{j=1}^{\infty}p_{ij}=\frac{1}{p_{i\cdot}}\cdot p_{i\cdot}=1 \]
至此,我们完成了两类条件分布列的完整推导与合法性证明。
四、离散型随机变量条件分布函数的定义与推导
有了条件分布列,我们可以类比普通离散型随机变量的分布函数,定义条件分布函数(累积条件概率)。
1. 给定\(Y=y_j\)条件下\(X\)的条件分布函数
普通离散型随机变量的分布函数为\(F(x)=P(X\leq x)=\sum\limits_{x_i\leq x}P(X=x_i)\),我们将其中的无条件概率替换为条件概率,即可得到条件分布函数:
定义3.5.2(条件分布函数) 给定\(Y=y_j\)条件下\(X\)的条件分布函数,记为\(F(x|y_j)\),定义为
\[\boldsymbol{F(x|y_j)=P(X\leq x|Y=y_j)=\sum_{x_i\leq x}P(X=x_i|Y=y_j)=\sum_{x_i\leq x}p_{i|j}} \]
其本质是:对所有满足\(x_i\leq x\)的\(X\)取值,累加对应的条件概率,刻画给定\(Y=y_j\)时,\(X\)的累积概率分布规律。
2. 给定\(X=x_i\)条件下\(Y\)的条件分布函数
同理,定义给定\(X=x_i\)条件下\(Y\)的条件分布函数\(F(y|x_i)\):
五、例题详解(例3.5.1):条件分布列的计算实操
我们结合教材例题,完整拆解条件分布列的计算步骤,验证上述公式与性质。
步骤1:明确已知的联合分布与边缘分布
设二维离散型随机变量\((X,Y)\)的联合分布列如下表:
| \(X \setminus Y\) | \(Y=1\) | \(Y=2\) | \(Y=3\) | \(X\)的边缘分布\(p_{i\cdot}\) |
|---|---|---|---|---|
| \(X=1\) | 0.1 | 0.3 | 0.2 | 0.6 |
| \(X=2\) | 0.2 | 0.05 | 0.15 | 0.4 |
| \(Y\)的边缘分布\(p_{\cdot j}\) | 0.3 | 0.35 | 0.35 | 1.0 |
步骤2:计算给定\(X\)取值时,\(Y\)的条件分布列
条件分布列公式:\(p_{j|i}=\frac{p_{ij}}{p_{i\cdot}}\),即联合分布的行元素,除以对应行的边缘和。
-
给定\(X=1\)时,\(p_{1\cdot}=0.6>0\),因此:
- \(P(Y=1|X=1)=\frac{p_{11}}{p_{1\cdot}}=\frac{0.1}{0.6}=\frac{1}{6}\)
- \(P(Y=2|X=1)=\frac{p_{12}}{p_{1\cdot}}=\frac{0.3}{0.6}=\frac{1}{2}\)
- \(P(Y=3|X=1)=\frac{p_{13}}{p_{1\cdot}}=\frac{0.2}{0.6}=\frac{1}{3}\)
验证规范性:\(\frac{1}{6}+\frac{1}{2}+\frac{1}{3}=1\),符合分布列要求。
最终\(Y|X=1\)的条件分布列:
| \(Y|X=1\) | 1 | 2 | 3 |
|---------|---|---|---|
| \(P\) | \(\frac{1}{6}\) | \(\frac{1}{2}\) | \(\frac{1}{3}\) | -
给定\(X=2\)时,\(p_{2\cdot}=0.4>0\),因此:
- \(P(Y=1|X=2)=\frac{p_{21}}{p_{2\cdot}}=\frac{0.2}{0.4}=\frac{1}{2}\)
- \(P(Y=2|X=2)=\frac{p_{22}}{p_{2\cdot}}=\frac{0.05}{0.4}=\frac{1}{8}\)
- \(P(Y=3|X=2)=\frac{p_{23}}{p_{2\cdot}}=\frac{0.15}{0.4}=\frac{3}{8}\)
验证规范性:\(\frac{1}{2}+\frac{1}{8}+\frac{3}{8}=1\),符合要求。
最终\(Y|X=2\)的条件分布列:
| \(Y|X=2\) | 1 | 2 | 3 |
|---------|---|---|---|
| \(P\) | \(\frac{1}{2}\) | \(\frac{1}{8}\) | \(\frac{3}{8}\) |
步骤3:计算给定\(Y\)取值时,\(X\)的条件分布列
条件分布列公式:\(p_{i|j}=\frac{p_{ij}}{p_{\cdot j}}\),即联合分布的列元素,除以对应列的边缘和。
-
给定\(Y=1\)时,\(p_{\cdot 1}=0.3>0\),因此:
- \(P(X=1|Y=1)=\frac{p_{11}}{p_{\cdot 1}}=\frac{0.1}{0.3}=\frac{1}{3}\)
- \(P(X=2|Y=1)=\frac{p_{21}}{p_{\cdot 1}}=\frac{0.2}{0.3}=\frac{2}{3}\)
验证规范性:\(\frac{1}{3}+\frac{2}{3}=1\),符合要求。
最终\(X|Y=1\)的条件分布列:
| \(X|Y=1\) | 1 | 2 |
|---------|---|---|
| \(P\) | \(\frac{1}{3}\) | \(\frac{2}{3}\) | -
给定\(Y=2\)时,\(p_{\cdot 2}=0.35>0\),因此:
- \(P(X=1|Y=2)=\frac{p_{12}}{p_{\cdot 2}}=\frac{0.3}{0.35}=\frac{6}{7}\)
- \(P(X=2|Y=2)=\frac{p_{22}}{p_{\cdot 2}}=\frac{0.05}{0.35}=\frac{1}{7}\)
验证规范性:\(\frac{6}{7}+\frac{1}{7}=1\),符合要求。
最终\(X|Y=2\)的条件分布列:
| \(X|Y=2\) | 1 | 2 |
|---------|---|---|
| \(P\) | \(\frac{6}{7}\) | \(\frac{1}{7}\) | -
给定\(Y=3\)时,\(p_{\cdot 3}=0.35>0\),因此:
- \(P(X=1|Y=3)=\frac{p_{13}}{p_{\cdot 3}}=\frac{0.2}{0.35}=\frac{4}{7}\)
- \(P(X=2|Y=3)=\frac{p_{23}}{p_{\cdot 3}}=\frac{0.15}{0.35}=\frac{3}{7}\)
验证规范性:\(\frac{4}{7}+\frac{3}{7}=1\),符合要求。
最终\(X|Y=3\)的条件分布列:
| \(X|Y=3\) | 1 | 2 |
|---------|---|---|
| \(P\) | \(\frac{4}{7}\) | \(\frac{3}{7}\) |
例题核心结论
二维随机变量的联合分布列只有1个,但条件分布列的数量由变量的取值个数决定:本例中\(X\)有2个取值、\(Y\)有3个取值,因此对应\(2+3=5\)个条件分布列。每个条件分布列都从一个侧面,刻画了一个变量固定时,另一个变量的概率分布规律,这也是条件分布能描述变量相依性的核心原因。
六、核心知识点归纳总结表
| 分类 | 核心内容 | 公式/定义 | 前提条件 | 核心性质 | 计算方法 |
|---|---|---|---|---|---|
| 前置基础 | 条件概率公式 | \(P(A|B)=\frac{P(AB)}{P(B)}\) | \(P(B)>0\) | 非负性、规范性 | 联合事件概率除以条件事件概率 |
| 前置基础 | 二维离散型联合分布列 | \(p_{ij}=P(X=x_i,Y=y_j)\) | \(i,j=1,2,\dots\) | ① \(p_{ij}\geq0\);② \(\sum\limits_{i,j}p_{ij}=1\) | 直接描述两个变量同时取值的概率 |
| 前置基础 | 边缘分布列 | \(X\):\(p_{i\cdot}=\sum\limits_{j=1}^{\infty}p_{ij}\) \(Y\):\(p_{\cdot j}=\sum\limits_{i=1}^{\infty}p_{ij}\) |
\(i,j=1,2,\dots\) | ① 非负性;② 行和/列和的规范性 | 联合分布列按行求和、按列求和 |
| 条件分布列 | 给定\(Y=y_j\)下\(X\)的条件分布列 | \(p_{i|j}=P(X=x_i|Y=y_j)=\frac{p_{ij}}{p_{\cdot j}}\) | \(p_{\cdot j}=P(Y=y_j)>0\) | ① 非负性\(p_{i|j}\geq0\);② 规范性\(\sum\limits_{i=1}^{\infty}p_{i|j}=1\) | 联合分布列的列元素,除以对应列的边缘和 |
| 条件分布列 | 给定\(X=x_i\)下\(Y\)的条件分布列 | \(p_{j|i}=P(Y=y_j|X=x_i)=\frac{p_{ij}}{p_{i\cdot}}\) | \(p_{i\cdot}=P(X=x_i)>0\) | ① 非负性\(p_{j|i}\geq0\);② 规范性\(\sum\limits_{j=1}^{\infty}p_{j|i}=1\) | 联合分布列的行元素,除以对应行的边缘和 |
| 条件分布函数 | 给定\(Y=y_j\)下\(X\)的条件分布函数 | \(F(x|y_j)=\sum\limits_{x_i\leq x}p_{i|j}\) | \(p_{\cdot j}>0\) | 单调不减、右连续、值域\([0,1]\) | 对\(x_i\leq x\)的条件概率累加求和 |
| 条件分布函数 | 给定\(X=x_i\)下\(Y\)的条件分布函数 | \(F(y|x_i)=\sum\limits_{y_j\leq y}p_{j|i}\) | \(p_{i\cdot}>0\) | 单调不减、右连续、值域\([0,1]\) | 对\(y_j\leq y\)的条件概率累加求和 |
| 补充性质 | 与独立性的关联 | 若\(X,Y\)独立,则\(p_{i|j}=p_{i\cdot}\),\(p_{j|i}=p_{\cdot j}\) | \(p_{i\cdot}>0,p_{\cdot j}>0\) | 条件分布=边缘分布,变量取值互不影响 | 独立时条件分布与无条件分布完全一致 |
七、补充说明
- 条件分布的本质是“缩小样本空间后的概率分布”:给定\(Y=y_j\),相当于我们把样本空间缩小到了“\(Y=y_j\)”这个事件对应的所有样本点,在这个缩小的空间里,重新计算\(X\)所有取值的概率分布。
- 条件分布是后续条件期望、回归分析、随机过程的核心基础,所有关于相依随机变量的研究,几乎都离不开条件分布这个工具。
- 计算条件分布列的核心口诀:行算行,列算列,联合除以边缘——算\(Y\)在给定\(X\)下的条件分布,用行元素除以行边缘;算\(X\)在给定\(Y\)下的条件分布,用列元素除以列边缘,简单好记,不易出错。
例3.5.2与例3.5.3 深度讲解与完整推导
前置核心知识点回顾(解题必备)
以下是两个例题用到的全部基础概念与工具,是推导的核心依据:
-
泊松分布定义
若随机变量\(X\)服从参数为\(\lambda>0\)的泊松分布,记为\(X\sim P(\lambda)\),其概率质量函数为:\[P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2,\dots \]常用于描述单位时间/空间内稀有事件的发生次数。
-
独立泊松变量的可加性
若\(X\sim P(\lambda_1)\),\(Y\sim P(\lambda_2)\),且\(X\)与\(Y\)独立,则\(X+Y\sim P(\lambda_1+\lambda_2)\)(例3.5.2的核心前提,后续给出严格证明)。 -
条件概率与条件分布
对\(P(B)>0\),条件概率\(P(A|B)=\frac{P(AB)}{P(B)}\);对应离散型随机变量,给定\(Y=y_j\)时\(X\)的条件分布为:\[P(X=x_i|Y=y_j)=\frac{P(X=x_i,Y=y_j)}{P(Y=y_j)} \] -
二项分布定义
若\(X\sim b(n,p)\),其概率质量函数为:\[P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},\quad k=0,1,\dots,n \]其中\(\binom{n}{k}=\frac{n!}{k!(n-k)!}\)为组合数,描述\(n\)重伯努利试验的成功次数。
-
离散型全概率公式
若\(X\)的取值为\(m=0,1,2,\dots\),则\(P(Y=k)=\sum_{m=0}^{\infty}P(X=m)P(Y=k|X=m)\)。 -
指数函数泰勒展开
对任意实数\(x\),有\(e^x=\sum_{t=0}^{\infty}\frac{x^t}{t!}\)(例3.5.3化简的核心工具)。
例3.5.2 独立泊松变量和的条件分布 完整讲解
题干重述
设随机变量\(X\)与\(Y\)相互独立,且\(X\sim P(\lambda_1)\),\(Y\sim P(\lambda_2)\)。在已知\(X+Y=n\)的条件下,求\(X\)的条件分布。
步骤1:核心前提——泊松可加性的严格证明
例题直接使用了“独立泊松变量的和仍为泊松变量”,这里先完成证明,保证推导闭环:
结果完全符合泊松分布的概率质量函数,因此\(X+Y\sim P(\lambda_1+\lambda_2)\),前提得证。
步骤2:条件分布的逐行推导(每步标注依据)
我们要求\(P(X=k|X+Y=n)\),其中\(k\)的取值范围为\(0,1,\dots,n\)(\(k<0\)或\(k>n\)时概率为0)。
-
代入条件概率定义
\[P(X=k|X+Y=n)=\frac{P(X=k,X+Y=n)}{P(X+Y=n)} \]依据:条件概率核心公式,由泊松分布性质,\(\lambda_1+\lambda_2>0\),故分母\(P(X+Y=n)>0\),公式合法。
-
事件等价性替换
事件\(\{X=k,X+Y=n\}\)与\(\{X=k,Y=n-k\}\)完全等价:当且仅当\(X=k\)且\(Y=n-k\)时,两个事件同时成立,因此概率相等:\[P(X=k,X+Y=n)=P(X=k,Y=n-k) \] -
独立性拆分联合概率
由\(X\)与\(Y\)独立,联合概率拆分为边缘概率的乘积:\[P(X=k,Y=n-k)=P(X=k)P(Y=n-k) \] -
代入分布公式并化简
将\(X,Y,X+Y\)的泊松分布概率公式代入:\[P(X=k|X+Y=n)=\frac{\frac{\lambda_1^k}{k!}e^{-\lambda_1}\cdot\frac{\lambda_2^{n-k}}{(n-k)!}e^{-\lambda_2}}{\frac{(\lambda_1+\lambda_2)^n}{n!}e^{-(\lambda_1+\lambda_2)}} \]- 指数项:分子\(e^{-\lambda_1}e^{-\lambda_2}=e^{-(\lambda_1+\lambda_2)}\),与分母的指数项完全抵消;
- 阶乘项:\(\frac{n!}{k!(n-k)!}=\binom{n}{k}\),即组合数;
- 幂次项:拆分为\(\left(\frac{\lambda_1}{\lambda_1+\lambda_2}\right)^k\left(\frac{\lambda_2}{\lambda_1+\lambda_2}\right)^{n-k}\)。
最终化简结果为:
\[P(X=k|X+Y=n)=\binom{n}{k}\left(\frac{\lambda_1}{\lambda_1+\lambda_2}\right)^k\left(\frac{\lambda_2}{\lambda_1+\lambda_2}\right)^{n-k},\quad k=0,1,\dots,n \]
步骤3:结论解读
- 核心结论:在\(X+Y=n\)的条件下,\(X\)服从二项分布\(b\left(n,\frac{\lambda_1}{\lambda_1+\lambda_2}\right)\)。
- 直观意义:可将\(X,Y\)看作两个独立的泊松事件流(如\(X\)为到店男性顾客数,\(Y\)为到店女性顾客数),已知总到店人数为\(n\)时,每个顾客是男性的概率为\(\frac{\lambda_1}{\lambda_1+\lambda_2}\),且相互独立,因此男性顾客数服从二项分布,完全符合直观。
例3.5.3 泊松分布的随机拆分(稀疏性) 完整讲解
题干重述
设一段时间内进入商店的顾客人数\(X\sim P(\lambda)\),每个顾客购买商品的概率为\(p\),且顾客间是否购买相互独立,求购买商品的人数\(Y\)的分布列。
步骤1:问题的两层随机结构拆解
这是条件分布的经典应用场景,包含两层随机逻辑:
- 第一层:总人数\(X\)是随机变量,服从泊松分布\(P(\lambda)\),即\(P(X=m)=\frac{\lambda^m}{m!}e^{-\lambda},\ m=0,1,2,\dots\);
- 第二层:给定总人数\(X=m\)时,购买人数\(Y\)是\(m\)次独立伯努利试验的成功次数,因此服从二项分布\(b(m,p)\),条件分布为:\[P(Y=k|X=m)=\binom{m}{k}p^k(1-p)^{m-k},\quad k=0,1,\dots,m \](\(k>m\)时,\(P(Y=k|X=m)=0\),\(m\)个顾客最多购买\(m\)次)
我们的目标是求\(Y\)的边缘分布\(P(Y=k)\)。
步骤2:全概率公式的应用与逐行推导
-
写出全概率公式
当\(m<k\)时,\(P(Y=k|X=m)=0\),因此求和下限从\(m=k\)开始:\[P(Y=k)=\sum_{m=k}^{\infty}P(X=m)P(Y=k|X=m) \]依据:离散型全概率公式,对所有可能的\(X\)取值累加联合概率。
-
代入分布公式并约分
将\(P(X=m)\)和条件分布代入,展开组合数后约分:\[\begin{align*} P(Y=k)&=\sum_{m=k}^{\infty}\frac{\lambda^m}{m!}e^{-\lambda}\cdot\frac{m!}{k!(m-k)!}p^k(1-p)^{m-k}\\ &=e^{-\lambda}\sum_{m=k}^{\infty}\frac{\lambda^m}{k!(m-k)!}p^k(1-p)^{m-k} \end{align*} \] -
提取公因子与变量替换
将与求和变量\(m\)无关的\(e^{-\lambda}\)、\(\frac{p^k}{k!}\)提取到求和符号外;令\(t=m-k\),则\(m=t+k\),求和下限变为\(t=0\):\[\begin{align*} P(Y=k)&=e^{-\lambda}\cdot\frac{p^k}{k!}\sum_{t=0}^{\infty}\frac{\lambda^{t+k}(1-p)^t}{t!}\\ &=e^{-\lambda}\cdot\frac{(\lambda p)^k}{k!}\sum_{t=0}^{\infty}\frac{[\lambda(1-p)]^t}{t!} \end{align*} \] -
泰勒展开化简
求和式\(\sum_{t=0}^{\infty}\frac{[\lambda(1-p)]^t}{t!}=e^{\lambda(1-p)}\)(指数函数泰勒展开),代入后合并指数项:\[P(Y=k)=e^{-\lambda}\cdot\frac{(\lambda p)^k}{k!}\cdot e^{\lambda(1-p)}=\frac{(\lambda p)^k}{k!}e^{-\lambda p},\quad k=0,1,2,\dots \]
步骤3:结论解读
- 核心结论:购买人数\(Y\)服从参数为\(\lambda p\)的泊松分布,即\(Y\sim P(\lambda p)\)。
- 核心性质——泊松分布的稀疏性
这个结论揭示了泊松分布的核心特性:服从泊松分布的事件流,经过独立的伯努利筛选(每个事件以概率\(p\)保留)后,保留的事件流仍服从泊松分布,参数为原参数\(\lambda\)乘以保留概率\(p\)。
该性质在排队论、保险精算、交通流分析等领域有广泛应用,例如:保险公司报案数服从泊松分布,每个报案赔付的概率为\(p\),则最终赔付案件数仍服从泊松分布。 - 解题思想:当直接求边缘分布有困难时,可构造“总随机量→条件分布”的两层模型,借助条件分布和全概率公式,将复杂求解转化为已知分布的组合计算。
两个例题核心知识点对比总结表
| 对比维度 | 例3.5.2 | 例3.5.3 |
|---|---|---|
| 核心问题 | 已知两个独立泊松变量的和,求其中一个变量的条件分布 | 已知泊松总流量的条件二项分布,求筛选后流量的边缘分布 |
| 核心工具 | 条件概率定义、泊松可加性、二项式定理 | 全概率公式、条件分布、指数泰勒展开 |
| 输入分布 | \(X\sim P(\lambda_1),Y\sim P(\lambda_2)\),相互独立 | \(X\sim P(\lambda)\),\(Y|X=m\sim b(m,p)\),独立伯努利 |
| 输出结论 | \(X|X+Y=n\sim b\left(n,\frac{\lambda_1}{\lambda_1+\lambda_2}\right)\) | \(Y\sim P(\lambda p)\) |
| 分布关联 | 泊松分布的和→条件下为二项分布 | 泊松分布的条件二项拆分→边缘仍为泊松分布 |
| 核心意义 | 揭示泊松分布与二项分布的内在关联,泊松流的条件分配 | 揭示泊松分布的稀疏性,泊松流的随机拆分不变性 |
| 应用场景 | 已知总事件数,拆分到两个独立泊松源的概率计算 | 稀有事件流的筛选、分流、分类计数的分布计算 |
关键结论记忆口诀
- 泊松和,条件二项:独立泊松加和定,条件分布二项型;
- 泊松拆分,还是泊松:泊松流量伯努利筛,参数乘p仍泊松。
补充拓展:互逆关系
两个例题本质是互逆过程:
- 例3.5.2:两个独立泊松变量相加得到总泊松变量,给定总取值,拆分后的变量服从二项分布;
- 例3.5.3:一个泊松变量按二项分布拆分,拆分后的变量仍服从泊松分布。
二者共同构成了泊松分布与二项分布的核心关联,是离散型分布最经典的结论之一。
连续型随机变量的条件分布 深度讲解与完整推导
一、核心难点与前置知识铺垫
1. 离散型与连续型的本质区别(推导的核心前提)
离散型随机变量取单点值的概率大于0,因此可以直接用条件概率公式定义条件分布;但连续型随机变量取任意单点值的概率恒为0,即\(P(Y=y)=0\),无法直接套用\(P(A|B)=\frac{P(AB)}{P(B)}\)的经典公式,必须通过极限逼近的思想定义条件分布,这是连续型条件分布的核心难点。
2. 必备前置知识点
设二维连续型随机变量\((X,Y)\),有以下基础定义与定理:
- 联合概率密度函数\(p(x,y)\):满足联合分布函数\(F(x,y)=\int_{-\infty}^{x}\int_{-\infty}^{y}p(u,v)dvdu\),非负且\(\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)dxdy=1\)。
- 边缘概率密度函数:
\(X\)的边缘密度:\(p_X(x)=\int_{-\infty}^{+\infty}p(x,y)dy\)
\(Y\)的边缘密度:\(p_Y(y)=\int_{-\infty}^{+\infty}p(x,y)dx\) - 积分中值定理:若\(f(x)\)在\([a,b]\)上连续,则存在\(\xi\in[a,b]\),使得\(\int_{a}^{b}f(x)dx=f(\xi)\cdot(b-a)\)。
- 密度与分布函数的关系:分布函数的导数等于密度函数,即\(F'(x)=p(x)\)。
二、连续型条件分布的完整极限推导
我们的目标是定义给定\(Y=y\)条件下\(X\)的条件分布函数\(F(x|y)=P(X\leq x|Y=y)\),通过极限思想解决单点概率为0的问题。
步骤1:极限定义的构造
将单点\(Y=y\)用区间\(y\leq Y\leq y+h\)逼近,当\(h\to0^+\)时,区间收缩到\(y\)点,因此定义:
步骤2:展开条件概率并转化为积分形式
根据条件概率公式,\(P(X\leq x\mid y\leq Y\leq y+h)=\frac{P(X\leq x,\ y\leq Y\leq y+h)}{P(y\leq Y\leq y+h)}\),其中:
- 分子(联合概率):\(P(X\leq x,\ y\leq Y\leq y+h)=\int_{-\infty}^{x}\int_{y}^{y+h}p(u,v)dvdu\)
- 分母(边缘概率):\(P(y\leq Y\leq y+h)=\int_{y}^{y+h}p_Y(v)dv\)
因此原式可写为:
步骤3:分子分母同除\(h\),为取极限做准备
步骤4:利用积分中值定理处理积分项
假设\(p(x,y)\)和\(p_Y(y)\)在\(y\)处连续,对分子分母的积分分别应用积分中值定理:
- 分母:\(\frac{1}{h}\int_{y}^{y+h}p_Y(v)dv = \frac{1}{h}\cdot p_Y(\xi_h)\cdot h = p_Y(\xi_h)\),其中\(\xi_h\in[y,y+h]\)。当\(h\to0^+\)时,\(\xi_h\to y\),因此\(\lim_{h\to0^+}\frac{1}{h}\int_{y}^{y+h}p_Y(v)dv = p_Y(y)\)。
- 分子内层积分:\(\frac{1}{h}\int_{y}^{y+h}p(u,v)dv = \frac{1}{h}\cdot p(u,\eta_h)\cdot h = p(u,\eta_h)\),其中\(\eta_h\in[y,y+h]\)。当\(h\to0^+\)时,\(\eta_h\to y\),因此\(\lim_{h\to0^+}\frac{1}{h}\int_{y}^{y+h}p(u,v)dv = p(u,y)\)。
步骤5:交换极限与积分,得到最终结果
根据积分的控制收敛定理,极限与积分可交换顺序,因此分子的极限为:
综上,条件分布函数的极限结果为:
步骤6:条件密度函数的推导
根据概率密度函数的定义,密度函数是分布函数的导数,对\(F(x|y)\)关于\(x\)求导,即可得到给定\(Y=y\)条件下\(X\)的条件概率密度函数:
三、连续型条件分布的严格定义
1. 给定\(Y=y\)条件下\(X\)的条件分布
对一切使\(p_Y(y)>0\)的\(y\),定义:
- 条件分布函数:\[\boldsymbol{F(x|y)=\int_{-\infty}^{x}\frac{p(u,y)}{p_Y(y)}du} \tag{3.5.5} \]
- 条件概率密度函数:\[\boldsymbol{p(x|y)=\frac{p(x,y)}{p_Y(y)}} \tag{3.5.6} \]
2. 给定\(X=x\)条件下\(Y\)的条件分布
同理,对一切使\(p_X(x)>0\)的\(x\),定义:
- 条件分布函数:\[\boldsymbol{F(y|x)=\int_{-\infty}^{y}\frac{p(x,v)}{p_X(x)}dv} \tag{3.5.7} \]
- 条件概率密度函数:\[\boldsymbol{p(y|x)=\frac{p(x,y)}{p_X(x)}} \tag{3.5.8} \]
3. 核心注意事项
条件分布函数\(F(x|y)\)和条件密度函数\(p(x|y)\),本质是以\(y\)为参数的一簇分布:不同的\(y\)取值,对应\(X\)不同的概率分布,而非单一分布。同理\(F(y|x)\)和\(p(y|x)\)是以\(x\)为参数的一簇分布。
四、经典例题完整解析
例3.5.4 二维正态分布的条件分布
题干
设\((X,Y)\)服从二维正态分布\(N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\),求给定\(Y=y\)时\(X\)的条件分布,以及给定\(X=x\)时\(Y\)的条件分布。
步骤1:写出已知分布
- 二维正态联合密度:\[p(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\exp\left\{ -\frac{1}{2(1-\rho^2)}\left[ \frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2} \right] \right\} \]
- \(Y\)的边缘密度(一维正态分布\(N(\mu_2,\sigma_2^2)\)):\[p_Y(y)=\frac{1}{\sqrt{2\pi}\sigma_2}\exp\left\{ -\frac{(y-\mu_2)^2}{2\sigma_2^2} \right\} \]
步骤2:计算条件密度\(p(x|y)=p(x,y)/p_Y(y)\)
- 常数项化简:\[\frac{\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}}{\frac{1}{\sqrt{2\pi}\sigma_2}} = \frac{1}{\sqrt{2\pi}\sigma_1\sqrt{1-\rho^2}} \]
- 指数项化简:
两个指数相除等价于指数部分相减,通分后合并同类项:\[\begin{align*} &-\frac{1}{2(1-\rho^2)}\left[ \frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2} \right] + \frac{(y-\mu_2)^2}{2\sigma_2^2}\\ =&-\frac{1}{2(1-\rho^2)}\left[ \frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\rho^2\frac{(y-\mu_2)^2}{\sigma_2^2} \right]\\ =&-\frac{1}{2\sigma_1^2(1-\rho^2)}\left[ x-\left( \mu_1+\rho\frac{\sigma_1}{\sigma_2}(y-\mu_2) \right) \right]^2 \end{align*} \](注:括号内为完全平方展开,是正态密度的标准形式)
步骤3:结论
条件密度\(p(x|y)\)完全符合一维正态分布的密度形式,因此:
给定\(Y=y\)时,\(X\)服从正态分布\(N\left( \mu_1+\rho\frac{\sigma_1}{\sigma_2}(y-\mu_2),\ \sigma_1^2(1-\rho^2) \right)\)。
同理可证:给定\(X=x\)时,\(Y\)服从正态分布\(N\left( \mu_2+\rho\frac{\sigma_2}{\sigma_1}(x-\mu_1),\ \sigma_2^2(1-\rho^2) \right)\)。
核心性质解读
二维正态分布的边缘分布、条件分布均为一维正态分布,这是正态分布的核心优良性质,在多元统计、线性回归分析中是核心理论基础:条件均值正是\(X\)对\(Y\)的线性回归方程,说明二维正态变量的回归是线性的。
例3.5.5 单位圆上均匀分布的条件分布
题干
设二维随机变量\((X,Y)\)服从单位圆\(G=\{(x,y)\mid x^2+y^2\leq1\}\)上的均匀分布,求给定\(Y=y\)条件下\(X\)的条件密度函数\(p(x|y)\)。
步骤1:写出联合密度函数
单位圆的面积为\(\pi\),因此二维均匀分布的联合密度为:
步骤2:计算\(Y\)的边缘密度\(p_Y(y)\)
对联合密度关于\(x\)积分,积分区间为\(x\in[-\sqrt{1-y^2},\sqrt{1-y^2}]\)(单位圆内\(y\)对应的\(x\)取值范围):
步骤3:计算条件密度\(p(x|y)\)
当\(-1<y<1\)时,\(p_Y(y)=\frac{2\sqrt{1-y^2}}{\pi}>0\),满足条件密度的定义前提,因此:
步骤4:特例验证与结论
- 当\(y=0\)时,\(p(x|y=0)=\begin{cases}\displaystyle\frac{1}{2}, & -1\leq x\leq1 \\ 0, & \text{其他}\end{cases}\),即\(X|Y=0\)服从\((-1,1)\)上的均匀分布。
- 当\(y=0.5\)时,\(p(x|y=0.5)=\begin{cases}\displaystyle\frac{1}{\sqrt{3}}, & -\frac{\sqrt{3}}{2}\leq x\leq\frac{\sqrt{3}}{2} \\ 0, & \text{其他}\end{cases}\),即\(X|Y=0.5\)服从\((-\frac{\sqrt{3}}{2},\frac{\sqrt{3}}{2})\)上的均匀分布。
最终结论:当\(-1<y<1\)时,给定\(Y=y\)条件下,\(X\)服从区间\((-\sqrt{1-y^2},\sqrt{1-y^2})\)上的均匀分布;同理,当\(-1<x<1\)时,给定\(X=x\)条件下,\(Y\)服从区间\((-\sqrt{1-x^2},\sqrt{1-x^2})\)上的均匀分布。
五、连续型条件分布的核心性质
-
密度函数的基本性质
条件密度满足非负性与规范性:- 非负性:\(p(x|y)\geq0\),\(p(y|x)\geq0\)
- 规范性:\(\int_{-\infty}^{+\infty}p(x|y)dx=1\),\(\int_{-\infty}^{+\infty}p(y|x)dy=1\)
-
乘法公式
联合密度可分解为条件密度与边缘密度的乘积:\[p(x,y)=p(x|y)p_Y(y)=p(y|x)p_X(x) \] -
全概率公式(连续型)
边缘密度可通过条件密度对另一变量积分得到:\[p_X(x)=\int_{-\infty}^{+\infty}p(x|y)p_Y(y)dy,\quad p_Y(y)=\int_{-\infty}^{+\infty}p(y|x)p_X(x)dx \] -
贝叶斯公式(连续型)
\[p(x|y)=\frac{p(y|x)p_X(x)}{\int_{-\infty}^{+\infty}p(y|x)p_X(x)dx},\quad p(y|x)=\frac{p(x|y)p_Y(y)}{\int_{-\infty}^{+\infty}p(x|y)p_Y(y)dy} \] -
独立性判定
若\(X\)与\(Y\)相互独立,则条件密度等于边缘密度:\[p(x|y)=p_X(x),\quad p(y|x)=p_Y(y) \]反之,若上式对所有满足前提的\(x,y\)成立,则\(X\)与\(Y\)独立。
六、离散型与连续型条件分布核心对比表
| 对比维度 | 离散型随机变量 | 连续型随机变量 |
|---|---|---|
| 核心前提 | \(P(Y=y_j)=p_{\cdot j}>0\) | \(p_Y(y)>0\)(单点概率\(P(Y=y)=0\),需极限定义) |
| 条件分布列/密度 | \(p_{i|j}=P(X=x_i|Y=y_j)=\frac{p_{ij}}{p_{\cdot j}}\) | \(p(x|y)=\frac{p(x,y)}{p_Y(y)}\) |
| 条件分布函数 | \(F(x|y_j)=\sum_{x_i\leq x}p_{i|j}\) | \(F(x|y)=\int_{-\infty}^{x}\frac{p(u,y)}{p_Y(y)}du\) |
| 乘法公式 | \(p_{ij}=p_{i|j}p_{\cdot j}=p_{j|i}p_{i\cdot}\) | \(p(x,y)=p(x|y)p_Y(y)=p(y|x)p_X(x)\) |
| 全概率公式 | \(p_{i\cdot}=\sum_{j}p_{i|j}p_{\cdot j}\) | \(p_X(x)=\int_{-\infty}^{+\infty}p(x|y)p_Y(y)dy\) |
| 独立性判定 | 独立\(\iff p_{i|j}=p_{i\cdot}\)对所有\(i,j\)成立 | 独立\(\iff p(x|y)=p_X(x)\)对所有满足前提的\(x,y\)成立 |
| 本质特征 | 有限/可列个取值,直接用条件概率定义 | 连续取值,通过极限逼近定义,用密度函数刻画分布 |
连续场合的全概率公式与贝叶斯公式 深度讲解与完整推导
一、前置知识回顾
上一节我们定义了连续型随机变量的条件概率密度,这是本次推导的核心基础:
- 对一切使\(p_X(x)>0\)的\(x\),给定\(X=x\)时\(Y\)的条件密度:\[p(y|x)=\frac{p(x,y)}{p_X(x)} \]
- 对一切使\(p_Y(y)>0\)的\(y\),给定\(Y=y\)时\(X\)的条件密度:\[p(x|y)=\frac{p(x,y)}{p_Y(y)} \]
二、连续型联合密度的乘法公式
将条件密度公式变形,即可得到联合密度的乘法分解公式,对应离散型的“联合概率=边缘概率×条件概率”:
核心意义
仅靠两个变量的边缘分布无法确定联合分布,但边缘分布+条件分布可以唯一确定联合分布,这是刻画连续型随机变量相依关系的核心工具,也是全概率、贝叶斯公式的推导基础。
三、连续场合的全概率公式
1. 离散→连续的类比逻辑
离散型全概率公式:若\(A_1,A_2,\dots\)是样本空间的划分,则对任意事件\(B\),有
连续型中,随机变量\(X\)的取值是连续的,相当于把样本空间划分为无穷多个“\(X=x\)”的微元,求和替换为积分,概率替换为密度函数,即可得到连续型全概率公式。
2. 严格推导
根据边缘密度的定义,\(Y\)的边缘密度是联合密度对\(x\)的积分:
将乘法公式(3.5.9)代入,替换联合密度\(p(x,y)\),得到连续场合全概率公式的密度形式:
同理,\(X\)的边缘密度可表示为:
3. 核心解读
公式的本质是:要计算\(Y\)的边缘密度,需将所有\(X\)的取值对\(Y\)的概率贡献累加(积分),即“\(X=x\)的边缘密度”乘以“给定\(X=x\)时\(Y\)的条件密度”,再对所有\(x\)积分。
典型应用:混合分布密度计算、贝叶斯统计的边缘似然求解、随机过程的状态转移密度计算。
四、连续场合的贝叶斯公式
1. 离散→连续的类比逻辑
离散型贝叶斯公式:
连续型中,将事件\(A_i\)替换为“\(X=x\)”,事件\(B\)替换为“\(Y=y\)”,求和换为积分,概率换为密度,即可得到连续型贝叶斯公式。
2. 严格推导
根据条件密度的定义:
- 分子:用乘法公式(3.5.9)替换为\(p_X(x)p(y|x)\)
- 分母:用全概率公式(3.5.11)替换为\(\int_{-\infty}^{+\infty} p_X(x)p(y|x)dx\)
代入后得到连续场合贝叶斯公式的密度形式:
3. 核心概念:分布的核
对于概率密度函数,仅与随机变量有关、不含归一化常数的部分,称为该分布的核。
例如正态分布\(N(\mu,\sigma^2)\)的密度为\(\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\),其核为\(\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\),前面的系数是保证积分等于1的归一化常数。
对于贝叶斯公式(3.5.13),分母是对\(x\)积分的结果,仅与\(y\)有关、与\(x\)无关,相当于\(p(x|y)\)的归一化常数。因此贝叶斯公式可简化为核的形式:
含义:后验分布的核 = 先验分布的核 × 似然函数的核,无需计算复杂积分即可判断分布类型,是贝叶斯统计的核心简化技巧。
4. 核心意义
在贝叶斯统计中:
- \(p_X(x)\):先验分布,观测到\(Y\)之前对\(X\)的分布认知;
- \(p(y|x)\):似然函数,观测到\(Y=y\)时关于\(X\)的似然;
- \(p(x|y)\):后验分布,观测到\(Y\)之后对\(X\)分布的更新认知。
贝叶斯公式实现了从先验到后验的统计推断,是贝叶斯方法的核心基石。
五、例3.5.6 超详细逐行推导(补全所有跳步)
题干重述
设随机变量\(X \sim N(\mu,\sigma_1^2)\),在\(X=x\)的条件下,\(Y\)的条件分布为\(N(x,\sigma_2^2)\)。求\(Y\)的无条件(边缘)密度\(p_Y(y)\),并确定其分布。
步骤1:写出已知密度函数
- \(X\)的边缘密度(正态分布\(N(\mu,\sigma_1^2)\)):\[p_X(x) = \frac{1}{\sqrt{2\pi}\sigma_1} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma_1^2} \right\} \]
- 给定\(X=x\)时\(Y\)的条件密度(正态分布\(N(x,\sigma_2^2)\)):\[p(y|x) = \frac{1}{\sqrt{2\pi}\sigma_2} \exp\left\{ -\frac{(y-x)^2}{2\sigma_2^2} \right\} \]
步骤2:代入全概率公式
根据(3.5.11),\(Y\)的边缘密度为:
步骤3:指数部分的代数变形(核心难点)
单独处理指数部分\(I\):
提取公因子\(-\frac{1}{2}\),展开平方项并合并同类项:
步骤4:对\(x\)的二次函数配方(正态积分核心)
二次函数配方公式:\(ax^2-2bx+c = a\left(x-\frac{b}{a}\right)^2 + \left(c-\frac{b^2}{a}\right)\),其中:
- 均值项:\(\frac{b}{a} = \frac{\sigma_2^2\mu + \sigma_1^2 y}{\sigma_1^2+\sigma_2^2}\)
- 常数项(与\(x\)无关):\(c-\frac{b^2}{a} = \frac{(y-\mu)^2}{\sigma_1^2+\sigma_2^2}\)
因此指数部分可配方为:
步骤5:计算正态积分
正态分布积分性质:\(\int_{-\infty}^{+\infty} \exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}dx = \sqrt{2\pi}\sigma\),此处积分对应的方差\(\sigma^2=\frac{\sigma_1^2\sigma_2^2}{\sigma_1^2+\sigma_2^2}\),因此:
步骤6:化简得到最终结果
将积分结果代回\(p_Y(y)\),约分化简后:
最终结论
该密度完全符合一维正态分布的形式,因此\(Y\)服从正态分布\(N(\mu,\sigma_1^2+\sigma_2^2)\)。
直观解读
本例本质是\(Y=X+\varepsilon\),其中\(X\sim N(\mu,\sigma_1^2)\),\(\varepsilon\sim N(0,\sigma_2^2)\)且与\(X\)独立,符合正态分布的可加性,验证了推导的正确性。
六、离散型vs连续型公式对比总结表
| 公式类型 | 离散型随机变量 | 连续型随机变量 | 核心对应关系 |
|---|---|---|---|
| 乘法公式 | \(p_{ij}=p_{i\cdot}p_{j|i}=p_{\cdot j}p_{i|j}\) | \(p(x,y)=p_X(x)p(y|x)=p_Y(y)p(x|y)\) | 联合=边缘×条件 |
| 全概率公式 | \(p_{\cdot j}=\sum_{i=1}^\infty p_{i\cdot}p_{j|i}\) \(p_{i\cdot}=\sum_{j=1}^\infty p_{\cdot j}p_{i|j}\) |
\(p_Y(y)=\int_{-\infty}^{+\infty}p_X(x)p(y|x)dx\) \(p_X(x)=\int_{-\infty}^{+\infty}p_Y(y)p(x|y)dy\) |
求和→积分,概率→密度 |
| 贝叶斯公式 | \(p_{i|j}=\frac{p_{i\cdot}p_{j|i}}{\sum_{k}p_{k\cdot}p_{j|k}}\) | \(p(x|y)=\frac{p_X(x)p(y|x)}{\int_{-\infty}^{+\infty}p_X(x)p(y|x)dx}\) | 分母为全概率结果 |
| 核简化表示 | \(P(A_i|B) \propto P(A_i)P(B|A_i)\) | \(p(x|y) \propto p_X(x)p(y|x)\) | 忽略归一化常数,保留变量相关核 |
| 核心应用 | 古典概型、离散状态统计推断 | 贝叶斯统计、混合分布建模、随机过程 | 实现“先验/边缘→条件→后验/边缘”的推断逻辑 |
连续场合的全概率公式与贝叶斯公式 完整讲解与推导
一、前置基础回顾
本部分内容的核心基础是连续型随机变量的条件概率密度,先明确核心定义:
对于二维连续型随机变量\((X,Y)\):
- 若边缘密度\(p_X(x)>0\),则给定\(X=x\)时\(Y\)的条件概率密度为:\[p(y|x) = \frac{p(x,y)}{p_X(x)} \]
- 若边缘密度\(p_Y(y)>0\),则给定\(Y=y\)时\(X\)的条件概率密度为:\[p(x|y) = \frac{p(x,y)}{p_Y(y)} \]
二、联合密度的乘法公式
将条件密度公式变形,即可得到联合密度的乘法分解公式,对应离散型“联合概率=边缘概率×条件概率”的逻辑:
核心意义
仅靠两个变量的边缘分布无法确定联合分布,但边缘分布+对应的条件分布,可以唯一确定联合分布,这是刻画连续型随机变量相依关系的核心工具,也是全概率、贝叶斯公式的推导基础。
三、连续场合的全概率公式
1. 离散→连续的类比逻辑
离散型全概率公式:若\(A_1,A_2,\dots\)是样本空间的划分,则对任意事件\(B\),有
连续型中,随机变量\(X\)的取值是连续的,相当于把样本空间划分为无穷多个“\(X=x\)”的微元事件,此时求和运算替换为积分运算,概率替换为概率密度函数。
2. 严格推导
根据边缘密度的定义,\(Y\)的边缘密度是联合密度对\(x\)在全空间的积分:
将乘法公式(3.5.9)代入,替换联合密度\(p(x,y)\),得到连续场合全概率公式的密度形式:
同理,\(X\)的边缘密度可表示为:
3. 核心意义与应用
公式本质是:计算\(Y\)的边缘密度时,需累加(积分)所有\(X\)的取值对\(Y\)的概率贡献——每一个\(X=x\)的贡献为“\(X=x\)的边缘密度”乘以“给定\(X=x\)时\(Y\)的条件密度”。
典型应用场景:混合分布密度计算、贝叶斯统计的边缘似然求解、带噪声的观测模型边缘分布计算、随机过程状态转移密度求解。
四、连续场合的贝叶斯公式
1. 公式严格推导
根据条件密度的定义,给定\(Y=y\)时\(X\)的条件密度为:
- 分子:用乘法公式(3.5.9)替换为\(p_X(x) \cdot p(y|x)\)
- 分母:用全概率公式(3.5.11)替换为\(\int_{-\infty}^{+\infty} p_X(x) \cdot p(y|x) dx\)
代入后得到连续场合贝叶斯公式的密度形式:
2. 分布的核与简化形式
对于概率密度函数,仅与随机变量有关、不含归一化常数的部分,称为该分布的核。
例如正态分布\(N(\mu,\sigma^2)\)的密度为\(\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\),其核为\(\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\),前面的系数是保证积分等于1的归一化常数。
对于贝叶斯公式(3.5.13),分母是对\(x\)积分的结果,仅与\(y\)有关、与\(x\)无关,相当于\(p(x|y)\)的归一化常数。因此贝叶斯公式可简化为核的比例形式:
含义:后验分布的核 = 先验分布的核 × 似然函数的核。该简化无需计算复杂积分,即可判断分布类型,是贝叶斯统计的核心技巧。
3. 贝叶斯统计意义
- \(p_X(x)\):先验分布,观测到\(Y\)之前对\(X\)的分布认知;
- \(p(y|x)\):似然函数,观测到\(Y=y\)时关于\(X\)的似然;
- \(p(x|y)\):后验分布,观测到\(Y\)之后对\(X\)分布的更新认知。
贝叶斯公式实现了从先验到后验的统计推断,是贝叶斯方法的核心基石。
五、例3.5.6 超详细逐行推导(补全教材跳步)
题干
设随机变量\(X \sim N(\mu,\sigma_1^2)\),在\(X=x\)的条件下,\(Y\)的条件分布为\(N(x,\sigma_2^2)\)。求\(Y\)的无条件(边缘)密度函数\(p_Y(y)\),并确定其分布。
步骤1:写出已知密度函数
- \(X\)的边缘密度(正态分布\(N(\mu,\sigma_1^2)\)):\[p_X(x) = \frac{1}{\sqrt{2\pi}\sigma_1} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma_1^2} \right\} \]
- 给定\(X=x\)时\(Y\)的条件密度(正态分布\(N(x,\sigma_2^2)\)):\[p(y|x) = \frac{1}{\sqrt{2\pi}\sigma_2} \exp\left\{ -\frac{(y-x)^2}{2\sigma_2^2} \right\} \]
步骤2:代入全概率公式
根据(3.5.11),\(Y\)的边缘密度为:
步骤3:指数部分展开与合并
单独处理指数部分\(I\),展开平方项并拆分关于\(x\)的项:
与\(x\)无关的项可提到积分外,因此:
步骤4:对\(x\)的二次函数配方
利用完全平方公式\(ax^2-2bx+c = a\left(x-\frac{b}{a}\right)^2 + \left(c-\frac{b^2}{a}\right)\),令:
指数部分可配方为:
其中\(\frac{b}{a} = \frac{\mu\sigma_2^2 + y\sigma_1^2}{\sigma_1^2+\sigma_2^2}\),是正态分布的均值项。
步骤5:计算正态积分
利用正态积分性质\(\int_{-\infty}^{+\infty} \exp\left\{-a\left(x-\frac{b}{a}\right)^2\right\}dx = \sqrt{\frac{\pi}{a}}\),代入\(a\)的表达式得:
步骤6:化简得到最终结果
将积分结果代回\(p_Y(y)\),化简常数项和指数部分:
- 常数项化简为\(\frac{1}{\sqrt{2\pi(\sigma_1^2+\sigma_2^2)}}\),符合正态分布的归一化常数;
- 指数部分化简为\(-\frac{(y-\mu)^2}{2(\sigma_1^2+\sigma_2^2)}\),符合正态分布的指数形式。
最终结论
\(Y\)的边缘密度为:
因此\(Y\)服从正态分布\(N(\mu,\sigma_1^2+\sigma_2^2)\)。
直观解读
本例本质是带噪声的观测模型\(Y=X+\varepsilon\),其中\(\varepsilon\sim N(0,\sigma_2^2)\)且与\(X\)独立,符合正态分布的可加性,验证了推导的正确性。
六、离散型vs连续型公式对比总结表
| 公式类型 | 离散型随机变量 | 连续型随机变量 | 核心对应关系 |
|---|---|---|---|
| 乘法公式 | \(p_{ij} = p_{i\cdot} \cdot p_{j|i} = p_{\cdot j} \cdot p_{i|j}\) | \(p(x,y) = p_X(x) \cdot p(y|x) = p_Y(y) \cdot p(x|y)\) | 联合分布 = 边缘分布 × 条件分布 |
| 全概率公式 | \(p_{\cdot j} = \sum_{i=1}^\infty p_{i\cdot} \cdot p_{j|i}\) \(p_{i\cdot} = \sum_{j=1}^\infty p_{\cdot j} \cdot p_{i|j}\) |
\(p_Y(y) = \int_{-\infty}^{+\infty} p_X(x) \cdot p(y|x) dx\) \(p_X(x) = \int_{-\infty}^{+\infty} p_Y(y) \cdot p(x|y) dy\) |
离散求和 → 连续积分,概率 → 密度 |
| 贝叶斯公式 | \(p_{i|j} = \frac{p_{i\cdot} \cdot p_{j|i}}{\sum_{k} p_{k\cdot} \cdot p_{j|k}}\) | \(p(x|y) = \frac{p_X(x) \cdot p(y|x)}{\int_{-\infty}^{+\infty} p_X(x) \cdot p(y|x) dx}\) | 分母为全概率公式的结果 |
| 核简化形式 | \(P(A_i|B) \propto P(A_i) \cdot P(B|A_i)\) | \(p(x|y) \propto p_X(x) \cdot p(y|x)\) | 忽略归一化常数,仅保留与随机变量相关的核 |
| 核心意义 | 离散事件的贝叶斯推断 | 连续参数的贝叶斯统计推断 | 实现“先验认知 + 观测数据 → 后验更新”的逻辑 |
| 典型应用 | 古典概型、离散马尔可夫链 | 贝叶斯参数估计、信号处理、混合分布建模 |
七、核心要点总结
- 连续型乘法公式解决了“边缘分布无法确定联合分布”的问题,边缘分布+条件分布可唯一确定联合分布;
- 连续型全概率公式是离散全概率的连续推广,核心是用积分替代求和,累加所有中间变量的概率贡献;
- 连续型贝叶斯公式是贝叶斯统计的核心,利用分布的核可大幅简化计算,无需复杂积分即可判断后验分布类型;
- 正态分布具有优良的闭合性:正态先验+正态似然,得到的边缘分布仍为正态分布,符合正态分布的可加性。
条件数学期望 深度讲解与完整推导
条件数学期望(简称条件期望)是条件分布的数字特征,是概率论与数理统计中连接条件分布与期望理论的核心工具,在随机过程、贝叶斯统计、计量经济学、机器学习等领域有不可替代的作用。我们将从定义出发,拆解核心本质,完成严谨的定理证明,结合实例讲透应用逻辑。
一、前置知识回顾
条件期望的定义建立在条件分布的基础上,先回顾核心前提:
- 离散型:给定\(Y=y_j\)时\(X\)的条件分布列\(P(X=x_i|Y=y_j)=p_{i|j}\),描述了固定\(Y=y_j\)时\(X\)的概率分布;
- 连续型:给定\(Y=y\)时\(X\)的条件概率密度\(p(x|y)\),描述了固定\(Y=y\)时\(X\)的概率密度分布。
条件期望的本质,就是上述条件分布的数学期望:和普通期望的核心区别是,期望是在全样本空间上的平均,而条件期望是在“给定\(Y\)取某个值”的缩小样本空间上的平均。
二、条件数学期望的严格定义
定义3.5.4 条件数学期望
设\((X,Y)\)是二维随机变量,条件分布的数学期望(若存在)称为条件期望,分两种情况定义:
1. 二维离散型随机变量
对一切使\(P(Y=y_j)>0\)的\(y_j\),给定\(Y=y_j\)条件下\(X\)的条件期望为:
对一切使\(P(X=x_i)>0\)的\(x_i\),给定\(X=x_i\)条件下\(Y\)的条件期望为:
2. 二维连续型随机变量
对一切使\(p_Y(y)>0\)的\(y\),给定\(Y=y\)条件下\(X\)的条件期望为:
对一切使\(p_X(x)>0\)的\(x\),给定\(X=x\)条件下\(Y\)的条件期望为:
定义核心解读
- 计算逻辑:和普通期望完全一致,仅把“无条件分布”替换为“条件分布”——离散型用条件分布列加权求和,连续型用条件密度加权积分。
- 本质区别:
- 无条件期望\(E(X)\)是一个确定的常数,是\(X\)在全样本空间的整体平均;
- 条件期望\(E(X|Y=y)\)是一个关于\(y\)的确定性函数:\(y\)取不同的值,样本空间缩小的范围不同,\(X\)的条件平均也会随之变化。
三、条件期望的核心进阶:从确定性函数到随机变量
这是条件期望最核心、也是初学者最容易混淆的知识点,我们分两步拆解:
第一步:\(E(X|Y=y)\)是\(y\)的函数
我们记\(g(y) = E(X|Y=y)\),对于每一个确定的\(y\),\(g(y)\)是一个确定的数值,描述了“当\(Y=y\)时,\(X\)的条件平均”。
举教材中的实例:
- \(X\)表示中国成年人的身高,\(Y\)表示足长,公安部门的研究得到\(E(X|Y=y)=6.876y\)。
- 当\(y=25.3\ \text{cm}\)时,\(E(X|Y=25.3)=6.876\times25.3\approx174\ \text{cm}\),即足长25.3cm的成年人,平均身高约174cm;
- 当\(y=26\ \text{cm}\)时,\(E(X|Y=26)=6.876\times26\approx178.8\ \text{cm}\),即足长26cm的成年人,平均身高约178.8cm。
可见,\(y\)变化时,\(g(y)=E(X|Y=y)\)也随之变化,是一个以\(y\)为自变量的函数。
第二步:\(E(X|Y)\)是一个随机变量
既然\(g(y)=E(X|Y=y)\)是\(y\)的函数,我们把自变量替换为随机变量\(Y\),就得到了一个以\(Y\)为自变量的随机变量,记为:
核心性质
- 当\(Y=y\)时,\(E(X|Y)\)的取值就是\(E(X|Y=y)\);
- \(E(X|Y)\)的随机性完全由\(Y\)的随机性决定,它本身是一个随机变量,拥有自己的分布、期望、方差。
这个定义的意义在于:它把不同\(y\)对应的条件期望,统一成了一个随机变量,为后续重期望公式提供了理论基础,也让条件期望成为了随机过程中鞅论、马尔可夫过程的核心工具。
四、条件期望的基本性质
条件期望本质是“条件分布下的数学期望”,因此它继承了普通数学期望的所有性质,核心性质如下:
1. 线性性(最常用)
对任意常数\(a_1,a_2\),以及随机变量\(X_1,X_2\),有:
对固定的\(Y=y\),同样有:
含义:条件期望的线性组合,等于线性组合的条件期望,和普通期望的线性性完全一致。
2. 其他核心性质
- 非负性:若\(X\geq0\),则\(E(X|Y)\geq0\);
- 单调性:若\(X_1\geq X_2\),则\(E(X_1|Y)\geq E(X_2|Y)\);
- 常数的条件期望:对任意常数\(c\),\(E(c|Y)=c\);
- 可提取性:若\(h(Y)\)是\(Y\)的函数,则\(E(h(Y)X | Y) = h(Y)E(X|Y)\);
(直观意义:给定\(Y\)时,\(h(Y)\)是一个确定的常数,因此可以提到条件期望外面) - 独立性简化:若\(X\)与\(Y\)相互独立,则\(E(X|Y)=E(X)\);
(直观意义:\(X\)与\(Y\)独立时,\(Y\)的取值不影响\(X\)的分布,因此条件平均等于整体平均) - 柯西-施瓦茨不等式:\([E(XY|Y)]^2 \leq E(X^2|Y)E(Y^2|Y)\)
五、核心定理:重期望公式(全期望公式)
重期望公式是条件期望最核心的应用定理,是概率论中极为深刻的结论,也是连接条件期望与无条件期望的桥梁。
定理3.5.1 重期望公式
设\((X,Y)\)是二维随机变量,且\(E(X)\)存在,则:
直观解读
这个公式的本质是:整体平均 = 分组平均的加权平均。
比如求全校学生的平均身高\(E(X)\):
- 先按班级\(Y\)分组,求出每个班级的平均身高\(E(X|Y=y_j)\)(分组平均);
- 再按每个班级的人数占比\(P(Y=y_j)\)加权,对所有班级的平均身高求平均,就得到全校的平均身高。
严格证明
我们分别对连续型和离散型两种情况完成证明,教材中仅证明了连续型,这里补充离散型的完整证明。
1. 连续型随机变量的证明
设二维连续型随机变量\((X,Y)\)的联合密度为\(p(x,y)\),边缘密度为\(p_X(x),p_Y(y)\),条件密度为\(p(x|y)\)。
第一步:写出\(X\)的无条件期望的定义
第二步:用全概率公式替换边缘密度\(p_X(x)\)
由连续型全概率公式,\(p_X(x) = \int_{-\infty}^{+\infty} p(x|y)p_Y(y) dy\),代入得:
第三步:交换积分次序(由富比尼定理,期望存在时积分次序可交换)
第四步:识别内层积分是条件期望\(E(X|Y=y)\)
内层积分\(\int_{-\infty}^{+\infty} x p(x|y) dx = E(X|Y=y) = g(y)\),因此:
连续型情况得证。
2. 离散型随机变量的证明
设二维离散型随机变量\((X,Y)\)的联合分布列为\(P(X=x_i,Y=y_j)\),边缘分布列为\(P(X=x_i),P(Y=y_j)\),条件分布列为\(P(X=x_i|Y=y_j)\)。
第一步:写出\(X\)的无条件期望的定义
第二步:用离散型全概率公式替换边缘概率\(P(X=x_i)\)
\(P(X=x_i) = \sum_{j} P(X=x_i|Y=y_j)P(Y=y_j)\),代入得:
第三步:交换求和次序
第四步:识别内层求和是条件期望\(E(X|Y=y_j)\)
内层求和\(\sum_{i} x_i P(X=x_i|Y=y_j) = E(X|Y=y_j) = g(y_j)\),因此:
离散型情况得证。
重期望公式的两种具体形式
根据\(Y\)的类型,重期望公式可写为更具体的形式,方便直接计算:
1. \(Y\)是离散型随机变量
设\(Y\)的可能取值为\(y_1,y_2,\dots\),则:
2. \(Y\)是连续型随机变量
设\(Y\)的边缘密度为\(p_Y(y)\),则:
六、经典例题解析
例1:二维正态分布的条件期望
设\((X,Y)\)服从二维正态分布\(N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\),求\(E(X|Y=y)\)。
解
由之前的结论,给定\(Y=y\)时,\(X\)的条件分布为一维正态分布:
而正态分布的期望就是其第一个参数,因此直接得到:
解读
- 二维正态分布的条件期望是\(y\)的线性函数,这也是线性回归的理论基础;
- 当\(\rho=0\)(\(X\)与\(Y\)独立)时,\(E(X|Y=y)=\mu_1=E(X)\),符合独立时条件期望等于无条件期望的性质;
- 教材中身高和足长的例子,本质就是二维正态分布的条件期望,因此得到的是线性公式\(E(X|Y=y)=6.876y\)。
例2:重期望公式的数值应用
设随机变量\(Y\)服从参数为\(\lambda=2\)的泊松分布,给定\(Y=n\)时,\(X\)服从二项分布\(b(n,p=0.5)\),求\(E(X)\)。
解
第一步:写出条件期望
给定\(Y=n\)时,\(X\sim b(n,0.5)\),因此条件期望\(E(X|Y=n)=np=0.5n\),即\(E(X|Y)=0.5Y\)。
第二步:应用重期望公式
\(Y\sim P(2)\),因此\(E(Y)=2\),代入得:
解读
这个例子中,我们不需要求出\(X\)的边缘分布,仅通过条件期望和重期望公式,就快速求出了\(X\)的无条件期望,这就是重期望公式的核心优势:当直接求\(E(X)\)困难时,可通过引入辅助变量\(Y\),用“条件平均再平均”的方式简化计算。
七、核心知识点总结表
| 分类 | 离散型随机变量 | 连续型随机变量 | 核心本质 |
|---|---|---|---|
| 条件期望定义 | \(E(X|Y=y_j)=\sum_i x_i P(X=x_i|Y=y_j)\) | \(E(X|Y=y)=\int_{-\infty}^{+\infty}x p(x|y)dx\) | 条件分布的数学期望,固定\(Y=y\)时是确定值 |
| 随机变量形式 | \(E(X|Y)\):以\(Y\)的取值为自变量的随机变量,\(Y=y_j\)时取值为\(E(X|Y=y_j)\) | \(E(X|Y)\):以\(Y\)的取值为自变量的随机变量,\(Y=y\)时取值为\(E(X|Y=y)\) | 由\(Y\)的随机性决定的随机变量 |
| 核心线性性 | \(E(a_1X_1+a_2X_2|Y=y_j)=a_1E(X_1|Y=y_j)+a_2E(X_2|Y=y_j)\) | \(E(a_1X_1+a_2X_2|Y=y)=a_1E(X_1|Y=y)+a_2E(X_2|Y=y)\) | 继承普通期望的所有性质 |
| 重期望公式 | \(E(X)=\sum_j E(X|Y=y_j)P(Y=y_j)\) | \(E(X)=\int_{-\infty}^{+\infty}E(X|Y=y)p_Y(y)dy\) | 整体平均 = 分组平均的加权平均 |
| 独立性简化 | 若\(X,Y\)独立,则\(E(X|Y=y_j)=E(X)\) | 若\(X,Y\)独立,则\(E(X|Y=y)=E(X)\) | 独立时条件平均等于整体平均 |
| 可提取性 | \(E(h(Y)X|Y=y_j)=h(y_j)E(X|Y=y_j)\) | \(E(h(Y)X|Y=y)=h(y)E(X|Y=y)\) | 给定\(Y\)时,\(Y\)的函数可视为常数提取 |
八、核心要点总结
- 条件期望的本质是缩小样本空间后的数学期望,固定\(Y=y\)时是\(y\)的确定性函数,替换为随机变量\(Y\)后,\(E(X|Y)\)是一个随机变量;
- 条件期望继承了普通期望的所有性质,其中线性性、可提取性、独立性简化是最常用的三个性质;
- 重期望公式是条件期望的核心应用,它实现了“从局部条件平均到整体无条件平均”的转换,是解决复杂期望计算的核心工具,在随机过程、机器学习、统计推断中应用极广;
- 二维正态分布的条件期望是线性函数,这是线性回归分析、相关性分析的核心理论基础。
重期望公式(全期望公式)经典例题 深度解析
本节4道例题均为重期望公式\(E(X) = E\left[ E(X|Y) \right]\) 的核心应用,解决的是「直接求解随机变量\(X\)的分布/期望困难,通过引入辅助随机变量\(Y\),先计算条件期望\(E(X|Y)\),再对条件期望求平均得到最终期望」的典型场景,覆盖离散递归型、连续分段型、随机和型三大类高频考点,我们逐题拆解推导逻辑与核心方法。
例3.5.7 矿工逃生问题(离散递归型期望)
题干重述
一矿工被困在有三个门的矿井里:
- 第一个门:走3小时可到达安全区;
- 第二个门:走5小时回到原处;
- 第三个门:走7小时回到原处。
矿工等概率随机选一个门,求他到达安全区的平均时间。
核心难点
直接求解困难:矿工到达安全区的时间\(X\)的可能取值为\(3, 5+3, 7+3, 5+5+3, 5+7+3,\dots\),是无穷多个取值,无法直接写出分布列计算期望,因此引入辅助变量,用重期望公式简化计算。
详细推导
步骤1:定义随机变量
- 设\(X\):矿工到达安全区所需的时间(单位:小时),目标求\(E(X)\);
- 设\(Y\):第一次选择的门的编号,\(Y=1,2,3\),由题意\(P(Y=1)=P(Y=2)=P(Y=3)=\frac{1}{3}\)。
步骤2:计算条件期望\(E(X|Y=y)\)
条件期望的核心是「固定\(Y=y\)时,\(X\)的平均时间」,关键是递归逻辑:
- 当\(Y=1\):选第一个门,3小时直接到达安全区,因此\(E(X|Y=1)=3\);
- 当\(Y=2\):选第二个门,先花费5小时回到原处,此时矿工的处境和初始状态完全一致,后续到达安全区的平均时间仍为\(E(X)\),因此总平均时间为\(E(X|Y=2)=5 + E(X)\);
- 当\(Y=3\):选第三个门,先花费7小时回到原处,同理后续平均时间仍为\(E(X)\),因此\(E(X|Y=3)=7 + E(X)\)。
步骤3:代入重期望公式求解
离散型重期望公式:\(E(X) = \sum_{y} E(X|Y=y)P(Y=y)\),代入得:
解一元一次方程:
最终结论
矿工平均需要15小时到达安全区。
核心方法提炼
对于带重置的递归型期望问题(选错后回到初始状态重新开始),核心是利用「回到初始状态后,后续期望与原期望相等」的逻辑,在条件期望中引入\(E(X)\),通过重期望公式得到关于\(E(X)\)的方程,直接解方程即可,无需写出无穷的分布列。
例3.5.8 摸球得分问题(离散递归型期望)
题干重述
口袋中有编号为\(1,2,\dots,n\)的\(n\)个球,任取1球:
- 取到1号球:得1分,停止摸球;
- 取到\(i\)号球(\(i\geq2\)):得\(i\)分,将球放回,重新摸球。
求得到的平均总分数。
核心难点
总分数\(X\)的取值是无穷多的(如\(2+1, 2+2+1, 3+1,\dots\)),直接写分布列求和困难,同样用递归+重期望公式求解。
详细推导
步骤1:定义随机变量
- 设\(X\):得到的总分数,目标求\(E(X)\);
- 设\(Y\):第一次取到的球的号码,\(Y=1,2,\dots,n\),由题意\(P(Y=i)=\frac{1}{n},\ i=1,2,\dots,n\)。
步骤2:计算条件期望\(E(X|Y=i)\)
- 当\(Y=1\):取到1号球,得1分后直接停止,因此\(E(X|Y=1)=1\);
- 当\(Y=i\)(\(i\geq2\)):取到\(i\)号球,先得\(i\)分,球放回后重新摸球,后续总分数的平均仍为\(E(X)\),因此总平均分数为\(E(X|Y=i)=i + E(X)\)。
步骤3:代入重期望公式求解
离散型重期望公式:\(E(X) = \sum_{i=1}^n E(X|Y=i)P(Y=i)\),代入得:
解一元一次方程:
最终结论
得到的平均总分数为\(\frac{n(n+1)}{2}\)。
核心要点
和例3.5.7属于同一类递归型问题,核心逻辑是「重置后,后续期望与原期望一致」,通过重期望公式将无穷求和转化为一元一次方程,大幅简化计算。
例3.5.9 工厂月均利润问题(连续型重期望公式)
题干重述
- 电力公司每月供电量\(X\)服从\((10,30)\)(单位:\(10^4\ \text{kW}\))上的均匀分布,即\(X\sim U(10,30)\);
- 工厂每月实际需电量\(Y\)服从\((10,20)\)(单位:\(10^4\ \text{kW}\))上的均匀分布,即\(Y\sim U(10,20)\);
- 利润规则:电力足够(\(Y\leq X\))时,每\(10^4\ \text{kW}\)电创造30万元利润;电力不足(\(Y>X\))时,不足部分通过其他途径解决,每\(10^4\ \text{kW}\)仅创造10万元利润。
求工厂每月的平均利润。
核心难点
利润\(Z\)是关于\(X,Y\)的分段函数,直接求\(Z\)的联合分布再算期望复杂,因此用重期望公式:先固定\(X=x\),求条件期望\(E(Z|X=x)\),再对\(X\)的分布求平均得到\(E(Z)\)。
详细推导
步骤1:写出已知分布的密度函数
- \(X\sim U(10,30)\),边缘密度:\(p_X(x) = \begin{cases} \displaystyle\frac{1}{20}, & 10\leq x\leq30 \\ 0, & \text{其他} \end{cases}\)
- \(Y\sim U(10,20)\),边缘密度:\(p_Y(y) = \begin{cases} \displaystyle\frac{1}{10}, & 10\leq y\leq20 \\ 0, & \text{其他} \end{cases}\)
- 由题意,\(X\)与\(Y\)相互独立。
步骤2:写出利润\(Z\)的分段函数
根据利润规则,化简后\(Z\)的表达式为:
步骤3:计算条件期望\(E(Z|X=x)\)
固定\(X=x\)时,\(Z\)仅为\(Y\)的函数,条件期望为对\(Y\)的积分,分两种情况计算:
情况1:\(20\leq x\leq30\)
此时\(Y\)的取值范围\([10,20]\)恒满足\(Y\leq x\),因此\(Z=30Y\),条件期望为:
情况2:\(10\leq x<20\)
此时\(Y\)的取值分为\([10,x]\)(\(Y\leq X\))和\([x,20]\)(\(Y>X\)),分段积分:
综上,条件期望为:
步骤4:代入连续型重期望公式求\(E(Z)\)
连续型重期望公式:\(E(Z) = \int_{-\infty}^{+\infty} E(Z|X=x) p_X(x) dx\),代入分段积分:
最终结论
该厂每月的平均利润约为433万元。
核心方法提炼
对于二维随机变量的分段函数期望,核心是用重期望公式「先固定一个变量,求另一个变量的条件期望,再对固定的变量求平均」,将二重积分转化为两次单积分,大幅简化分段函数的计算复杂度。
例3.5.10 随机个随机变量和的数学期望(瓦尔德等式)
定理表述
设\(X_1,X_2,\dots\)为一列独立同分布的随机变量,随机变量\(N\)只取正整数值,且\(N\)与\(\{X_n\}\)相互独立,则:
该结论是概率论中经典的瓦尔德等式(Wald's Identity) 基础形式,是随机过程、保险精算、排队论的核心公式。
严格证明
利用离散型重期望公式,将\(N\)作为辅助变量,固定\(N=n\)计算条件期望:
- 重期望公式展开:
- 计算条件期望:
当\(N=n\)时,求和上限固定为\(n\),且\(N\)与\(X_i\)独立,结合期望的线性性与\(X_i\)同分布的性质,得:
- 代入求和化简:
定理得证。
应用实例解析
实例1:商场日均营业额
- 一天内到达商场的顾客数\(N\),\(E(N)=35000\);
- 第\(i\)个顾客的购物金额\(X_i\),独立同分布,\(E(X_i)=82\)元;
- \(N\)与\(X_i\)独立。
由瓦尔德等式,商场一天的平均营业额为:
实例2:昆虫产卵成活数
- 昆虫一次产卵数\(N\sim P(\lambda)\)(泊松分布),\(E(N)=\lambda\);
- 每个卵成活的概率为\(p\),\(X_i\)服从0-1分布,\(E(X_i)=p\);
- \(N\)与\(X_i\)独立。
由瓦尔德等式,平均成活卵数为:
该结论也验证了泊松分布的稀疏性,与之前的结论一致。
核心意义
瓦尔德等式解决了随机个随机变量和的期望计算问题,无需知道\(N\)和\(X_i\)的具体分布,仅需知道各自的期望和独立性条件,即可直接计算和的期望,在保险精算(理赔总额)、排队论(总服务时间)、金融(随机期数的收益和)等领域有极广泛的应用。
四、例题核心方法总结表
| 例题编号 | 问题类型 | 核心难点 | 辅助变量选择 | 核心公式 | 关键逻辑 |
|---|---|---|---|---|---|
| 3.5.7 | 离散递归型期望 | \(X\)有无穷多取值,直接求和困难 | 第一次选择的门\(Y\) | 离散重期望公式 | 重置后后续期望=原期望,构造关于\(E(X)\)的方程 |
| 3.5.8 | 离散递归型期望 | \(X\)有无穷多取值,直接求和困难 | 第一次取到的球号\(Y\) | 离散重期望公式 | 重置后后续期望=原期望,构造关于\(E(X)\)的方程 |
| 3.5.9 | 连续分段函数期望 | 二维分段函数二重积分复杂 | 供电量\(X\) | 连续重期望公式 | 先固定\(X=x\)求条件期望,再对\(X\)积分,拆分二重积分 |
| 3.5.10 | 随机个随机变量和的期望 | 求和上限是随机变量,直接计算困难 | 随机项数\(N\) | 重期望公式+期望线性性 | 固定\(N=n\)简化条件期望,得到瓦尔德等式 |
五、核心通用结论
重期望公式的核心价值,是将复杂的期望计算,拆解为「条件化→求条件期望→对条件期望求平均」的三步流程,无论是离散递归、连续分段,还是随机和问题,都可以通过这个框架大幅简化计算,是概率论中解决复杂期望问题的核心工具。
条件方差与全方差公式 深度讲解与完整推导
一、条件方差的定义与核心本质
条件方差是条件分布的二阶数字特征,与条件期望对应,刻画了给定随机变量\(Y\)的取值时,另一个随机变量\(X\)在缩小样本空间内的波动程度。
定义3.5.5 条件方差
条件分布的方差(若存在)称为条件方差,分离散型与连续型两种形式定义:
1. 给定\(Y=y\)时\(X\)的条件方差
2. 给定\(X=x\)时\(Y\)的条件方差
核心解读
- 本质对应:普通方差\(\text{Var}(X)=E\left[(X-E(X))^2\right]\)是\(X\)在全样本空间关于无条件期望的偏离平方的期望;而条件方差是在给定\(Y=y\)的条件下,\(X\)关于其条件期望\(E(X|Y=y)\)的偏离平方的条件期望,即\(\text{Var}(X|Y=y)=E\left[(X-E(X|Y=y))^2 \mid Y=y\right]\)。
- 函数属性:\(\text{Var}(X|Y=y)\)是关于\(y\)的确定性函数,\(y\)取不同值时,\(X\)的条件波动程度不同;将\(y\)替换为随机变量\(Y\),得到随机变量\(\text{Var}(X|Y)\),它的随机性由\(Y\)决定,是后续全方差公式的核心要素。
- 基本性质:
- 非负性:\(\text{Var}(X|Y=y) \geq 0\),方差刻画波动,恒非负;
- 常数的条件方差:对任意常数\(c\),\(\text{Var}(c|Y=y)=0\);
- 线性变换:\(\text{Var}(aX+b|Y=y)=a^2\text{Var}(X|Y=y)\)(\(a,b\)为常数);
- 独立性简化:若\(X\)与\(Y\)独立,则\(\text{Var}(X|Y=y)=\text{Var}(X)\)(独立时条件分布=无条件分布,条件波动=整体波动)。
二、核心定理:全方差公式(方差分解公式)
全方差公式是与重期望公式对应的核心定理,实现了随机变量总方差的分解,是概率论、回归分析、随机过程的关键工具。
定理3.5.2 全方差公式
设\((X,Y)\)是二维随机变量,且\(\text{Var}(X)\)存在,则:
直观通俗解读
这个公式将\(X\)的总方差分解为两部分之和,我们用「学生成绩」的例子做类比,一眼就能理解:
- 设\(X\)为全校学生的数学成绩,\(Y\)为学生所在的班级:
- 第一部分\(E\left[\text{Var}(X|Y)\right]\):组内方差的平均值
先按班级分组,计算每个班级内部学生成绩的方差(条件方差\(\text{Var}(X|Y=y)\)),再按班级人数占比对所有班级的方差求平均。这部分刻画的是班级内部学生成绩的随机波动,是即使知道了班级,也无法消除的个体差异带来的方差,也叫「不可解释方差」。 - 第二部分\(\text{Var}\left[E(X|Y)\right]\):组间均值的方差
先按班级分组,计算每个班级的平均成绩(条件期望\(E(X|Y=y)\)),再计算这些班级平均分的方差。这部分刻画的是不同班级之间的成绩差异,是由班级这个因素可以解释的方差,也叫「可解释方差」。
- 第一部分\(E\left[\text{Var}(X|Y)\right]\):组内方差的平均值
总方差 = 组内平均波动 + 组间均值差异,这就是全方差公式的核心内涵。
三、全方差公式的严格证明
教材仅证明了连续型场景,这里我们补全连续型完整推导(含交叉项为零的细节),并补充离散型场景的证明,实现全场景覆盖。
1. 连续型随机变量的证明
设二维连续型随机变量\((X,Y)\)的联合密度为\(p(x,y)\),边缘密度为\(p_Y(y)\),条件密度为\(p(x|y)\),记\(g(y)=E(X|Y=y)\),则\(g(Y)=E(X|Y)\)。
步骤1:从方差的原始定义出发
方差的定义为\(\text{Var}(X)=E\left[(X-E(X))^2\right]\),展开为二重积分:
步骤2:拆分联合密度,交换积分次序
由乘法公式\(p(x,y)=p(x|y)p_Y(y)\),代入后交换积分次序(先对\(x\)积分,再对\(y\)积分):
步骤3:核心技巧——加减项拆分
为了关联条件期望与条件方差,我们对被减项做拆分(加一个\(E(X|Y=y)\)再减一个\(E(X|Y=y)\),等式不变):
将平方展开:\((a+b)^2 = a^2 + 2ab + b^2\),代入积分后拆分为三项:
步骤4:分别化简三项
第一项化简为\(E\left[\text{Var}(X|Y)\right]\)
\(a^2 = \left(x - E(X|Y=y)\right)^2\),内层积分正是条件方差的定义:
因此第一项为:
第三项化简为\(\text{Var}\left[E(X|Y)\right]\)
\(b^2 = \left(E(X|Y=y) - E(X)\right)^2\),与积分变量\(x\)无关,可提到内层积分外;而条件密度满足规范性\(\int_{-\infty}^{+\infty}p(x|y)dx=1\),因此内层积分结果为1:
因此第三项为:
根据方差的定义,随机变量\(Z=E(X|Y)\)的方差为\(\text{Var}(Z)=E\left[(Z-E(Z))^2\right]\),结合重期望公式\(E\left[E(X|Y)\right]=E(X)\),上式正是\(\text{Var}\left[E(X|Y)\right]\)。
第二项(交叉项)证明为0
交叉项的核心是内层积分等于0,我们展开推导:
单独处理内层积分,拆分后用条件期望的定义化简:
其中\(\int_{-\infty}^{+\infty}x p(x|y)dx = E(X|Y=y)\),\(\int_{-\infty}^{+\infty}p(x|y)dx=1\),因此:
内层积分为0,因此整个交叉项恒为0。
步骤5:合并结果
三项合并后,交叉项为0,最终得到:
连续型场景得证。
2. 离散型随机变量的证明
设二维离散型随机变量\((X,Y)\)的联合分布列为\(P(X=x_i,Y=y_j)\),边缘分布列为\(P(Y=y_j)\),条件分布列为\(P(X=x_i|Y=y_j)\)。
步骤1:方差定义与全概率公式展开
由离散型全概率公式\(P(X=x_i)=\sum_{j}P(X=x_i|Y=y_j)P(Y=y_j)\),代入后交换求和次序:
步骤2:加减项拆分与三项化简
同样做拆分\(x_i - E(X) = \left(x_i - E(X|Y=y_j)\right) + \left(E(X|Y=y_j) - E(X)\right)\),平方展开后拆分为三项:
- 第一项:\(\sum_{j} \text{Var}(X|Y=y_j) P(Y=y_j) = E\left[\text{Var}(X|Y)\right]\)
- 交叉项:内层求和\(\sum_{i} \left(x_i - E(X|Y=y_j)\right)P(X=x_i|Y=y_j) = E(X|Y=y_j)-E(X|Y=y_j)=0\),因此交叉项为0
- 第三项:\(\sum_{j} \left(E(X|Y=y_j) - E(X)\right)^2 P(Y=y_j) = \text{Var}\left[E(X|Y)\right]\)
合并后得到全方差公式,离散型场景得证。
四、公式验证与典型应用
1. 二维正态分布的验证
设\((X,Y)\)服从二维正态分布\(N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\),由之前的结论:
- 条件期望:\(E(X|Y=y) = \mu_1 + \rho\frac{\sigma_1}{\sigma_2}(y-\mu_2)\),因此\(\text{Var}\left[E(X|Y)\right] = \left(\rho\frac{\sigma_1}{\sigma_2}\right)^2 \text{Var}(Y) = \rho^2\sigma_1^2\)
- 条件方差:\(\text{Var}(X|Y=y) = \sigma_1^2(1-\rho^2)\),因此\(E\left[\text{Var}(X|Y)\right] = \sigma_1^2(1-\rho^2)\)
两部分相加:
完美符合全方差公式,验证了定理的正确性。
2. 核心应用场景
- 回归分析:线性回归中,拟合优度\(R^2\)的本质是「可解释方差/总方差」,即\(R^2 = \frac{\text{Var}\left[E(X|Y)\right]}{\text{Var}(X)}\),\(R^2\)越接近1,说明\(Y\)对\(X\)的解释能力越强。
- 随机过程:在马尔可夫过程、鞅论中,全方差公式是计算过程波动、推导收敛性的核心工具。
- 分层抽样:抽样调查中,用全方差公式拆分层内方差和层间方差,优化抽样方案,降低抽样误差。
- 贝叶斯统计:用于计算后验分布的方差,拆分先验信息和样本信息对后验波动的贡献。
五、核心知识点总结表
| 概念 | 定义/公式 | 核心本质 | 关键性质 |
|---|---|---|---|
| 条件方差\(\text{Var}(X|Y=y)\) | 离散型:\(\sum_i (x_i-E(X|Y=y))^2 P(X=x_i|Y=y)\) 连续型:\(\int_{-\infty}^{+\infty} (x-E(X|Y=y))^2 p(x|y)dx\) |
给定\(Y=y\)时,\(X\)在条件分布下的波动程度 | 非负性、线性变换性质、独立时等于无条件方差 |
| 随机条件方差\(\text{Var}(X|Y)\) | 以\(Y\)为自变量的随机变量,\(Y=y\)时取值为\(\text{Var}(X|Y=y)\) | 由\(Y\)的随机性决定的随机波动函数 | 非负随机变量,可求期望、方差 |
| 重期望公式 | \(E(X) = E\left[E(X|Y)\right]\) | 整体平均 = 分组平均的加权平均 | 无条件期望=条件期望的期望 |
| 全方差公式 | \(\text{Var}(X) = E\left[\text{Var}(X|Y)\right] + \text{Var}\left[E(X|Y)\right]\) | 总方差 = 组内平均波动 + 组间均值差异 | 方差的可加分解,交叉项恒为0 |
posted on 2026-04-20 11:16 Indian_Mysore 阅读(103) 评论(0) 收藏 举报
浙公网安备 33010602011771号