昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

3.5条件分布与条件期望

离散型随机变量的条件分布 深度讲解与推导证明

各位同学,今天我们系统讲解二维离散型随机变量的条件分布,这是研究随机变量相依关系的核心工具。我会从基础概念溯源,完成严谨的推导证明,结合例题拆解计算逻辑,最后用表格完成全知识点归纳。


一、前置知识铺垫(学习的基础前提)

在学习条件分布前,我们必须先明确两个核心的前置概念,所有推导都建立在这两个基础之上:

1. 条件概率的经典定义

对于任意两个随机事件\(A\)\(B\),若事件\(B\)的发生概率\(P(B)>0\),则在事件\(B\)发生的条件下,事件\(A\)发生的条件概率为:

\[P(A|B)=\frac{P(AB)}{P(B)} \]

这个公式是条件分布的“源头”,条件分布本质上是条件概率在随机变量取值场景下的推广。

2. 二维离散型随机变量的联合分布与边缘分布

设二维离散型随机变量\((X,Y)\)\(X\)的可能取值为\(x_1,x_2,\dots\)\(Y\)的可能取值为\(y_1,y_2,\dots\),我们定义:

  • 联合分布列:描述\(X,Y\)同时取某个值的概率,记为

    \[p_{ij}=P(X=x_i,Y=y_j),\quad i=1,2,\dots,\ j=1,2,\dots \]

    联合分布列满足两条基本性质:① 非负性\(p_{ij}\geq0\);② 规范性\(\sum\limits_{i=1}^{\infty}\sum\limits_{j=1}^{\infty}p_{ij}=1\)

  • 边缘分布列:描述单个随机变量的概率分布,是联合分布列的“行和”与“列和”:

    • \(X\)的边缘分布列:\(p_{i\cdot}=P(X=x_i)=\sum\limits_{j=1}^{\infty}p_{ij},\quad i=1,2,\dots\)
    • \(Y\)的边缘分布列:\(p_{\cdot j}=P(Y=y_j)=\sum\limits_{i=1}^{\infty}p_{ij},\quad j=1,2,\dots\)
      边缘分布列同样满足非负性与规范性,例如\(\sum\limits_{i=1}^{\infty}p_{i\cdot}=1\)

二、条件分布的引入背景与核心意义

二维随机变量\((X,Y)\)之间的关系分为独立相依两类:

  • \(X\)\(Y\)独立,那么一个变量的取值不会影响另一个变量的概率分布;
  • 但在绝大多数实际问题中,随机变量的取值是相互影响的(比如人的身高\(Y\)和体重\(X\),限定身高\(Y=1.7m\)时,体重\(X\)的分布和无限制时的分布完全不同)。

条件分布,就是用来精准刻画“给定一个变量取某值时,另一个变量的概率分布规律”的工具,是研究随机变量相依关系的核心手段。


三、离散型随机变量条件分布列的定义、推导与性质证明

1. 给定\(Y=y_j\)条件下\(X\)的条件分布列

定义推导

我们将条件概率公式中的事件做替换:令\(A=\{X=x_i\}\)\(B=\{Y=y_j\}\),且要求\(P(B)=P(Y=y_j)=p_{\cdot j}>0\)(保证分母有意义,事件\(B\)不是不可能事件)。

将事件代入条件概率公式,直接得到:

\[P(X=x_i|Y=y_j)=\frac{P(X=x_i,Y=y_j)}{P(Y=y_j)}=\frac{p_{ij}}{p_{\cdot j}},\quad i=1,2,\dots \]

我们将这个概率记为\(p_{i|j}\),给出严格定义:

定义3.5.1(条件分布列) 对一切使\(P(Y=y_j)=p_{\cdot j}=\sum\limits_{i=1}^{\infty}p_{ij}>0\)\(y_j\),称

\[\boldsymbol{p_{i|j}=P(X=x_i|Y=y_j)=\frac{p_{ij}}{p_{\cdot j}},\quad i=1,2,\dots} \]

给定\(Y=y_j\)条件下\(X\)的条件分布列

合法性证明(分布列的充要条件)

一个数列能成为分布列,必须同时满足非负性规范性,我们严格证明\(p_{i|j}\)满足这两条性质:

  1. 非负性
    由联合分布列的非负性\(p_{ij}\geq0\),且前提\(p_{\cdot j}>0\),因此

    \[p_{i|j}=\frac{p_{ij}}{p_{\cdot j}}\geq0,\quad \forall i=1,2,\dots \]

    非负性成立。

  2. 规范性
    对所有\(i\)求和,结合边缘分布列的定义,有:

    \[\sum_{i=1}^{\infty}p_{i|j}=\sum_{i=1}^{\infty}\frac{p_{ij}}{p_{\cdot j}}=\frac{1}{p_{\cdot j}}\cdot\sum_{i=1}^{\infty}p_{ij}=\frac{1}{p_{\cdot j}}\cdot p_{\cdot j}=1 \]

    规范性成立。

由此证明,\(p_{i|j}\)是一个合法的概率分布列,完整描述了给定\(Y=y_j\)时,\(X\)所有可能取值的概率分布规律。

2. 给定\(X=x_i\)条件下\(Y\)的条件分布列

定义推导

同理,我们令\(A=\{Y=y_j\}\)\(B=\{X=x_i\}\),且要求\(P(B)=P(X=x_i)=p_{i\cdot}>0\),代入条件概率公式得:

\[P(Y=y_j|X=x_i)=\frac{P(X=x_i,Y=y_j)}{P(X=x_i)}=\frac{p_{ij}}{p_{i\cdot}},\quad j=1,2,\dots \]

记这个概率为\(p_{j|i}\),给出严格定义:

对一切使\(P(X=x_i)=p_{i\cdot}=\sum\limits_{j=1}^{\infty}p_{ij}>0\)\(x_i\),称

\[\boldsymbol{p_{j|i}=P(Y=y_j|X=x_i)=\frac{p_{ij}}{p_{i\cdot}},\quad j=1,2,\dots} \]

给定\(X=x_i\)条件下\(Y\)的条件分布列

合法性证明

同样证明其满足分布列的两条核心性质:

  1. 非负性\(p_{ij}\geq0\)\(p_{i\cdot}>0\),因此\(p_{j|i}=\frac{p_{ij}}{p_{i\cdot}}\geq0,\ \forall j=1,2,\dots\)
  2. 规范性

    \[\sum_{j=1}^{\infty}p_{j|i}=\sum_{j=1}^{\infty}\frac{p_{ij}}{p_{i\cdot}}=\frac{1}{p_{i\cdot}}\cdot\sum_{j=1}^{\infty}p_{ij}=\frac{1}{p_{i\cdot}}\cdot p_{i\cdot}=1 \]

至此,我们完成了两类条件分布列的完整推导与合法性证明。


四、离散型随机变量条件分布函数的定义与推导

有了条件分布列,我们可以类比普通离散型随机变量的分布函数,定义条件分布函数(累积条件概率)。

1. 给定\(Y=y_j\)条件下\(X\)的条件分布函数

普通离散型随机变量的分布函数为\(F(x)=P(X\leq x)=\sum\limits_{x_i\leq x}P(X=x_i)\),我们将其中的无条件概率替换为条件概率,即可得到条件分布函数:

定义3.5.2(条件分布函数) 给定\(Y=y_j\)条件下\(X\)的条件分布函数,记为\(F(x|y_j)\),定义为

\[\boldsymbol{F(x|y_j)=P(X\leq x|Y=y_j)=\sum_{x_i\leq x}P(X=x_i|Y=y_j)=\sum_{x_i\leq x}p_{i|j}} \]

其本质是:对所有满足\(x_i\leq x\)\(X\)取值,累加对应的条件概率,刻画给定\(Y=y_j\)时,\(X\)的累积概率分布规律。

2. 给定\(X=x_i\)条件下\(Y\)的条件分布函数

同理,定义给定\(X=x_i\)条件下\(Y\)的条件分布函数\(F(y|x_i)\)

\[\boldsymbol{F(y|x_i)=P(Y\leq y|X=x_i)=\sum_{y_j\leq y}P(Y=y_j|X=x_i)=\sum_{y_j\leq y}p_{j|i}} \]


五、例题详解(例3.5.1):条件分布列的计算实操

我们结合教材例题,完整拆解条件分布列的计算步骤,验证上述公式与性质。

步骤1:明确已知的联合分布与边缘分布

设二维离散型随机变量\((X,Y)\)的联合分布列如下表:

\(X \setminus Y\) \(Y=1\) \(Y=2\) \(Y=3\) \(X\)的边缘分布\(p_{i\cdot}\)
\(X=1\) 0.1 0.3 0.2 0.6
\(X=2\) 0.2 0.05 0.15 0.4
\(Y\)的边缘分布\(p_{\cdot j}\) 0.3 0.35 0.35 1.0

步骤2:计算给定\(X\)取值时,\(Y\)的条件分布列

条件分布列公式:\(p_{j|i}=\frac{p_{ij}}{p_{i\cdot}}\),即联合分布的行元素,除以对应行的边缘和

  1. 给定\(X=1\)时,\(p_{1\cdot}=0.6>0\),因此:

    • \(P(Y=1|X=1)=\frac{p_{11}}{p_{1\cdot}}=\frac{0.1}{0.6}=\frac{1}{6}\)
    • \(P(Y=2|X=1)=\frac{p_{12}}{p_{1\cdot}}=\frac{0.3}{0.6}=\frac{1}{2}\)
    • \(P(Y=3|X=1)=\frac{p_{13}}{p_{1\cdot}}=\frac{0.2}{0.6}=\frac{1}{3}\)
      验证规范性:\(\frac{1}{6}+\frac{1}{2}+\frac{1}{3}=1\),符合分布列要求。

    最终\(Y|X=1\)的条件分布列:
    | \(Y|X=1\) | 1 | 2 | 3 |
    |---------|---|---|---|
    | \(P\) | \(\frac{1}{6}\) | \(\frac{1}{2}\) | \(\frac{1}{3}\) |

  2. 给定\(X=2\)时,\(p_{2\cdot}=0.4>0\),因此:

    • \(P(Y=1|X=2)=\frac{p_{21}}{p_{2\cdot}}=\frac{0.2}{0.4}=\frac{1}{2}\)
    • \(P(Y=2|X=2)=\frac{p_{22}}{p_{2\cdot}}=\frac{0.05}{0.4}=\frac{1}{8}\)
    • \(P(Y=3|X=2)=\frac{p_{23}}{p_{2\cdot}}=\frac{0.15}{0.4}=\frac{3}{8}\)
      验证规范性:\(\frac{1}{2}+\frac{1}{8}+\frac{3}{8}=1\),符合要求。

    最终\(Y|X=2\)的条件分布列:
    | \(Y|X=2\) | 1 | 2 | 3 |
    |---------|---|---|---|
    | \(P\) | \(\frac{1}{2}\) | \(\frac{1}{8}\) | \(\frac{3}{8}\) |

步骤3:计算给定\(Y\)取值时,\(X\)的条件分布列

条件分布列公式:\(p_{i|j}=\frac{p_{ij}}{p_{\cdot j}}\),即联合分布的列元素,除以对应列的边缘和

  1. 给定\(Y=1\)时,\(p_{\cdot 1}=0.3>0\),因此:

    • \(P(X=1|Y=1)=\frac{p_{11}}{p_{\cdot 1}}=\frac{0.1}{0.3}=\frac{1}{3}\)
    • \(P(X=2|Y=1)=\frac{p_{21}}{p_{\cdot 1}}=\frac{0.2}{0.3}=\frac{2}{3}\)
      验证规范性:\(\frac{1}{3}+\frac{2}{3}=1\),符合要求。

    最终\(X|Y=1\)的条件分布列:
    | \(X|Y=1\) | 1 | 2 |
    |---------|---|---|
    | \(P\) | \(\frac{1}{3}\) | \(\frac{2}{3}\) |

  2. 给定\(Y=2\)时,\(p_{\cdot 2}=0.35>0\),因此:

    • \(P(X=1|Y=2)=\frac{p_{12}}{p_{\cdot 2}}=\frac{0.3}{0.35}=\frac{6}{7}\)
    • \(P(X=2|Y=2)=\frac{p_{22}}{p_{\cdot 2}}=\frac{0.05}{0.35}=\frac{1}{7}\)
      验证规范性:\(\frac{6}{7}+\frac{1}{7}=1\),符合要求。

    最终\(X|Y=2\)的条件分布列:
    | \(X|Y=2\) | 1 | 2 |
    |---------|---|---|
    | \(P\) | \(\frac{6}{7}\) | \(\frac{1}{7}\) |

  3. 给定\(Y=3\)时,\(p_{\cdot 3}=0.35>0\),因此:

    • \(P(X=1|Y=3)=\frac{p_{13}}{p_{\cdot 3}}=\frac{0.2}{0.35}=\frac{4}{7}\)
    • \(P(X=2|Y=3)=\frac{p_{23}}{p_{\cdot 3}}=\frac{0.15}{0.35}=\frac{3}{7}\)
      验证规范性:\(\frac{4}{7}+\frac{3}{7}=1\),符合要求。

    最终\(X|Y=3\)的条件分布列:
    | \(X|Y=3\) | 1 | 2 |
    |---------|---|---|
    | \(P\) | \(\frac{4}{7}\) | \(\frac{3}{7}\) |

例题核心结论

二维随机变量的联合分布列只有1个,但条件分布列的数量由变量的取值个数决定:本例中\(X\)有2个取值、\(Y\)有3个取值,因此对应\(2+3=5\)个条件分布列。每个条件分布列都从一个侧面,刻画了一个变量固定时,另一个变量的概率分布规律,这也是条件分布能描述变量相依性的核心原因。


六、核心知识点归纳总结表

分类 核心内容 公式/定义 前提条件 核心性质 计算方法
前置基础 条件概率公式 \(P(A|B)=\frac{P(AB)}{P(B)}\) \(P(B)>0\) 非负性、规范性 联合事件概率除以条件事件概率
前置基础 二维离散型联合分布列 \(p_{ij}=P(X=x_i,Y=y_j)\) \(i,j=1,2,\dots\) \(p_{ij}\geq0\);② \(\sum\limits_{i,j}p_{ij}=1\) 直接描述两个变量同时取值的概率
前置基础 边缘分布列 \(X\)\(p_{i\cdot}=\sum\limits_{j=1}^{\infty}p_{ij}\)
\(Y\)\(p_{\cdot j}=\sum\limits_{i=1}^{\infty}p_{ij}\)
\(i,j=1,2,\dots\) ① 非负性;② 行和/列和的规范性 联合分布列按行求和、按列求和
条件分布列 给定\(Y=y_j\)\(X\)的条件分布列 \(p_{i|j}=P(X=x_i|Y=y_j)=\frac{p_{ij}}{p_{\cdot j}}\) \(p_{\cdot j}=P(Y=y_j)>0\) ① 非负性\(p_{i|j}\geq0\);② 规范性\(\sum\limits_{i=1}^{\infty}p_{i|j}=1\) 联合分布列的列元素,除以对应列的边缘和
条件分布列 给定\(X=x_i\)\(Y\)的条件分布列 \(p_{j|i}=P(Y=y_j|X=x_i)=\frac{p_{ij}}{p_{i\cdot}}\) \(p_{i\cdot}=P(X=x_i)>0\) ① 非负性\(p_{j|i}\geq0\);② 规范性\(\sum\limits_{j=1}^{\infty}p_{j|i}=1\) 联合分布列的行元素,除以对应行的边缘和
条件分布函数 给定\(Y=y_j\)\(X\)的条件分布函数 \(F(x|y_j)=\sum\limits_{x_i\leq x}p_{i|j}\) \(p_{\cdot j}>0\) 单调不减、右连续、值域\([0,1]\) \(x_i\leq x\)的条件概率累加求和
条件分布函数 给定\(X=x_i\)\(Y\)的条件分布函数 \(F(y|x_i)=\sum\limits_{y_j\leq y}p_{j|i}\) \(p_{i\cdot}>0\) 单调不减、右连续、值域\([0,1]\) \(y_j\leq y\)的条件概率累加求和
补充性质 与独立性的关联 \(X,Y\)独立,则\(p_{i|j}=p_{i\cdot}\)\(p_{j|i}=p_{\cdot j}\) \(p_{i\cdot}>0,p_{\cdot j}>0\) 条件分布=边缘分布,变量取值互不影响 独立时条件分布与无条件分布完全一致

七、补充说明

  1. 条件分布的本质是“缩小样本空间后的概率分布”:给定\(Y=y_j\),相当于我们把样本空间缩小到了“\(Y=y_j\)”这个事件对应的所有样本点,在这个缩小的空间里,重新计算\(X\)所有取值的概率分布。
  2. 条件分布是后续条件期望、回归分析、随机过程的核心基础,所有关于相依随机变量的研究,几乎都离不开条件分布这个工具。
  3. 计算条件分布列的核心口诀:行算行,列算列,联合除以边缘——算\(Y\)在给定\(X\)下的条件分布,用行元素除以行边缘;算\(X\)在给定\(Y\)下的条件分布,用列元素除以列边缘,简单好记,不易出错。

例3.5.2与例3.5.3 深度讲解与完整推导

前置核心知识点回顾(解题必备)

以下是两个例题用到的全部基础概念与工具,是推导的核心依据:

  1. 泊松分布定义
    若随机变量\(X\)服从参数为\(\lambda>0\)的泊松分布,记为\(X\sim P(\lambda)\),其概率质量函数为:

    \[P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2,\dots \]

    常用于描述单位时间/空间内稀有事件的发生次数。

  2. 独立泊松变量的可加性
    \(X\sim P(\lambda_1)\)\(Y\sim P(\lambda_2)\),且\(X\)\(Y\)独立,则\(X+Y\sim P(\lambda_1+\lambda_2)\)(例3.5.2的核心前提,后续给出严格证明)。

  3. 条件概率与条件分布
    \(P(B)>0\),条件概率\(P(A|B)=\frac{P(AB)}{P(B)}\);对应离散型随机变量,给定\(Y=y_j\)\(X\)的条件分布为:

    \[P(X=x_i|Y=y_j)=\frac{P(X=x_i,Y=y_j)}{P(Y=y_j)} \]

  4. 二项分布定义
    \(X\sim b(n,p)\),其概率质量函数为:

    \[P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},\quad k=0,1,\dots,n \]

    其中\(\binom{n}{k}=\frac{n!}{k!(n-k)!}\)为组合数,描述\(n\)重伯努利试验的成功次数。

  5. 离散型全概率公式
    \(X\)的取值为\(m=0,1,2,\dots\),则\(P(Y=k)=\sum_{m=0}^{\infty}P(X=m)P(Y=k|X=m)\)

  6. 指数函数泰勒展开
    对任意实数\(x\),有\(e^x=\sum_{t=0}^{\infty}\frac{x^t}{t!}\)(例3.5.3化简的核心工具)。


例3.5.2 独立泊松变量和的条件分布 完整讲解

题干重述

设随机变量\(X\)\(Y\)相互独立,且\(X\sim P(\lambda_1)\)\(Y\sim P(\lambda_2)\)。在已知\(X+Y=n\)的条件下,求\(X\)的条件分布。

步骤1:核心前提——泊松可加性的严格证明

例题直接使用了“独立泊松变量的和仍为泊松变量”,这里先完成证明,保证推导闭环:

\[\begin{align*} P(X+Y=n)&=\sum_{k=0}^{n}P(X=k,Y=n-k)\\ &=\sum_{k=0}^{n}P(X=k)P(Y=n-k) \quad \text{(X与Y独立,联合概率拆分为边缘乘积)}\\ &=\sum_{k=0}^{n}\frac{\lambda_1^k}{k!}e^{-\lambda_1}\cdot\frac{\lambda_2^{n-k}}{(n-k)!}e^{-\lambda_2}\\ &=e^{-(\lambda_1+\lambda_2)}\cdot\frac{1}{n!}\sum_{k=0}^{n}\frac{n!}{k!(n-k)!}\lambda_1^k\lambda_2^{n-k} \quad \text{(提取公因子,凑组合数形式)}\\ &=e^{-(\lambda_1+\lambda_2)}\cdot\frac{(\lambda_1+\lambda_2)^n}{n!} \quad \text{(二项式定理:$\sum_{k=0}^n\binom{n}{k}a^kb^{n-k}=(a+b)^n$)} \end{align*} \]

结果完全符合泊松分布的概率质量函数,因此\(X+Y\sim P(\lambda_1+\lambda_2)\),前提得证。

步骤2:条件分布的逐行推导(每步标注依据)

我们要求\(P(X=k|X+Y=n)\),其中\(k\)的取值范围为\(0,1,\dots,n\)\(k<0\)\(k>n\)时概率为0)。

  1. 代入条件概率定义

    \[P(X=k|X+Y=n)=\frac{P(X=k,X+Y=n)}{P(X+Y=n)} \]

    依据:条件概率核心公式,由泊松分布性质,\(\lambda_1+\lambda_2>0\),故分母\(P(X+Y=n)>0\),公式合法。

  2. 事件等价性替换
    事件\(\{X=k,X+Y=n\}\)\(\{X=k,Y=n-k\}\)完全等价:当且仅当\(X=k\)\(Y=n-k\)时,两个事件同时成立,因此概率相等:

    \[P(X=k,X+Y=n)=P(X=k,Y=n-k) \]

  3. 独立性拆分联合概率
    \(X\)\(Y\)独立,联合概率拆分为边缘概率的乘积:

    \[P(X=k,Y=n-k)=P(X=k)P(Y=n-k) \]

  4. 代入分布公式并化简
    \(X,Y,X+Y\)的泊松分布概率公式代入:

    \[P(X=k|X+Y=n)=\frac{\frac{\lambda_1^k}{k!}e^{-\lambda_1}\cdot\frac{\lambda_2^{n-k}}{(n-k)!}e^{-\lambda_2}}{\frac{(\lambda_1+\lambda_2)^n}{n!}e^{-(\lambda_1+\lambda_2)}} \]

    • 指数项:分子\(e^{-\lambda_1}e^{-\lambda_2}=e^{-(\lambda_1+\lambda_2)}\),与分母的指数项完全抵消;
    • 阶乘项:\(\frac{n!}{k!(n-k)!}=\binom{n}{k}\),即组合数;
    • 幂次项:拆分为\(\left(\frac{\lambda_1}{\lambda_1+\lambda_2}\right)^k\left(\frac{\lambda_2}{\lambda_1+\lambda_2}\right)^{n-k}\)

    最终化简结果为:

    \[P(X=k|X+Y=n)=\binom{n}{k}\left(\frac{\lambda_1}{\lambda_1+\lambda_2}\right)^k\left(\frac{\lambda_2}{\lambda_1+\lambda_2}\right)^{n-k},\quad k=0,1,\dots,n \]

步骤3:结论解读

  1. 核心结论:在\(X+Y=n\)的条件下,\(X\)服从二项分布\(b\left(n,\frac{\lambda_1}{\lambda_1+\lambda_2}\right)\)
  2. 直观意义:可将\(X,Y\)看作两个独立的泊松事件流(如\(X\)为到店男性顾客数,\(Y\)为到店女性顾客数),已知总到店人数为\(n\)时,每个顾客是男性的概率为\(\frac{\lambda_1}{\lambda_1+\lambda_2}\),且相互独立,因此男性顾客数服从二项分布,完全符合直观。

例3.5.3 泊松分布的随机拆分(稀疏性) 完整讲解

题干重述

设一段时间内进入商店的顾客人数\(X\sim P(\lambda)\),每个顾客购买商品的概率为\(p\),且顾客间是否购买相互独立,求购买商品的人数\(Y\)的分布列。

步骤1:问题的两层随机结构拆解

这是条件分布的经典应用场景,包含两层随机逻辑:

  1. 第一层:总人数\(X\)是随机变量,服从泊松分布\(P(\lambda)\),即\(P(X=m)=\frac{\lambda^m}{m!}e^{-\lambda},\ m=0,1,2,\dots\)
  2. 第二层:给定总人数\(X=m\)时,购买人数\(Y\)\(m\)次独立伯努利试验的成功次数,因此服从二项分布\(b(m,p)\),条件分布为:

    \[P(Y=k|X=m)=\binom{m}{k}p^k(1-p)^{m-k},\quad k=0,1,\dots,m \]

    \(k>m\)时,\(P(Y=k|X=m)=0\)\(m\)个顾客最多购买\(m\)次)

我们的目标是求\(Y\)的边缘分布\(P(Y=k)\)

步骤2:全概率公式的应用与逐行推导

  1. 写出全概率公式
    \(m<k\)时,\(P(Y=k|X=m)=0\),因此求和下限从\(m=k\)开始:

    \[P(Y=k)=\sum_{m=k}^{\infty}P(X=m)P(Y=k|X=m) \]

    依据:离散型全概率公式,对所有可能的\(X\)取值累加联合概率。

  2. 代入分布公式并约分
    \(P(X=m)\)和条件分布代入,展开组合数后约分:

    \[\begin{align*} P(Y=k)&=\sum_{m=k}^{\infty}\frac{\lambda^m}{m!}e^{-\lambda}\cdot\frac{m!}{k!(m-k)!}p^k(1-p)^{m-k}\\ &=e^{-\lambda}\sum_{m=k}^{\infty}\frac{\lambda^m}{k!(m-k)!}p^k(1-p)^{m-k} \end{align*} \]

  3. 提取公因子与变量替换
    将与求和变量\(m\)无关的\(e^{-\lambda}\)\(\frac{p^k}{k!}\)提取到求和符号外;令\(t=m-k\),则\(m=t+k\),求和下限变为\(t=0\)

    \[\begin{align*} P(Y=k)&=e^{-\lambda}\cdot\frac{p^k}{k!}\sum_{t=0}^{\infty}\frac{\lambda^{t+k}(1-p)^t}{t!}\\ &=e^{-\lambda}\cdot\frac{(\lambda p)^k}{k!}\sum_{t=0}^{\infty}\frac{[\lambda(1-p)]^t}{t!} \end{align*} \]

  4. 泰勒展开化简
    求和式\(\sum_{t=0}^{\infty}\frac{[\lambda(1-p)]^t}{t!}=e^{\lambda(1-p)}\)(指数函数泰勒展开),代入后合并指数项:

    \[P(Y=k)=e^{-\lambda}\cdot\frac{(\lambda p)^k}{k!}\cdot e^{\lambda(1-p)}=\frac{(\lambda p)^k}{k!}e^{-\lambda p},\quad k=0,1,2,\dots \]

步骤3:结论解读

  1. 核心结论:购买人数\(Y\)服从参数为\(\lambda p\)的泊松分布,即\(Y\sim P(\lambda p)\)
  2. 核心性质——泊松分布的稀疏性
    这个结论揭示了泊松分布的核心特性:服从泊松分布的事件流,经过独立的伯努利筛选(每个事件以概率\(p\)保留)后,保留的事件流仍服从泊松分布,参数为原参数\(\lambda\)乘以保留概率\(p\)
    该性质在排队论、保险精算、交通流分析等领域有广泛应用,例如:保险公司报案数服从泊松分布,每个报案赔付的概率为\(p\),则最终赔付案件数仍服从泊松分布。
  3. 解题思想:当直接求边缘分布有困难时,可构造“总随机量→条件分布”的两层模型,借助条件分布和全概率公式,将复杂求解转化为已知分布的组合计算。

两个例题核心知识点对比总结表

对比维度 例3.5.2 例3.5.3
核心问题 已知两个独立泊松变量的和,求其中一个变量的条件分布 已知泊松总流量的条件二项分布,求筛选后流量的边缘分布
核心工具 条件概率定义、泊松可加性、二项式定理 全概率公式、条件分布、指数泰勒展开
输入分布 \(X\sim P(\lambda_1),Y\sim P(\lambda_2)\),相互独立 \(X\sim P(\lambda)\)\(Y|X=m\sim b(m,p)\),独立伯努利
输出结论 \(X|X+Y=n\sim b\left(n,\frac{\lambda_1}{\lambda_1+\lambda_2}\right)\) \(Y\sim P(\lambda p)\)
分布关联 泊松分布的和→条件下为二项分布 泊松分布的条件二项拆分→边缘仍为泊松分布
核心意义 揭示泊松分布与二项分布的内在关联,泊松流的条件分配 揭示泊松分布的稀疏性,泊松流的随机拆分不变性
应用场景 已知总事件数,拆分到两个独立泊松源的概率计算 稀有事件流的筛选、分流、分类计数的分布计算

关键结论记忆口诀

  1. 泊松和,条件二项:独立泊松加和定,条件分布二项型;
  2. 泊松拆分,还是泊松:泊松流量伯努利筛,参数乘p仍泊松。

补充拓展:互逆关系

两个例题本质是互逆过程:

  • 例3.5.2:两个独立泊松变量相加得到总泊松变量,给定总取值,拆分后的变量服从二项分布;
  • 例3.5.3:一个泊松变量按二项分布拆分,拆分后的变量仍服从泊松分布。
    二者共同构成了泊松分布与二项分布的核心关联,是离散型分布最经典的结论之一。

连续型随机变量的条件分布 深度讲解与完整推导

一、核心难点与前置知识铺垫

1. 离散型与连续型的本质区别(推导的核心前提)

离散型随机变量取单点值的概率大于0,因此可以直接用条件概率公式定义条件分布;但连续型随机变量取任意单点值的概率恒为0,即\(P(Y=y)=0\),无法直接套用\(P(A|B)=\frac{P(AB)}{P(B)}\)的经典公式,必须通过极限逼近的思想定义条件分布,这是连续型条件分布的核心难点。

2. 必备前置知识点

设二维连续型随机变量\((X,Y)\),有以下基础定义与定理:

  • 联合概率密度函数\(p(x,y)\):满足联合分布函数\(F(x,y)=\int_{-\infty}^{x}\int_{-\infty}^{y}p(u,v)dvdu\),非负且\(\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)dxdy=1\)
  • 边缘概率密度函数
    \(X\)的边缘密度:\(p_X(x)=\int_{-\infty}^{+\infty}p(x,y)dy\)
    \(Y\)的边缘密度:\(p_Y(y)=\int_{-\infty}^{+\infty}p(x,y)dx\)
  • 积分中值定理:若\(f(x)\)\([a,b]\)上连续,则存在\(\xi\in[a,b]\),使得\(\int_{a}^{b}f(x)dx=f(\xi)\cdot(b-a)\)
  • 密度与分布函数的关系:分布函数的导数等于密度函数,即\(F'(x)=p(x)\)

二、连续型条件分布的完整极限推导

我们的目标是定义给定\(Y=y\)条件下\(X\)的条件分布函数\(F(x|y)=P(X\leq x|Y=y)\),通过极限思想解决单点概率为0的问题。

步骤1:极限定义的构造

将单点\(Y=y\)用区间\(y\leq Y\leq y+h\)逼近,当\(h\to0^+\)时,区间收缩到\(y\)点,因此定义:

\[F(x|y)=P(X\leq x|Y=y)=\lim_{h\to0^+}P(X\leq x\mid y\leq Y\leq y+h) \]

步骤2:展开条件概率并转化为积分形式

根据条件概率公式,\(P(X\leq x\mid y\leq Y\leq y+h)=\frac{P(X\leq x,\ y\leq Y\leq y+h)}{P(y\leq Y\leq y+h)}\),其中:

  • 分子(联合概率):\(P(X\leq x,\ y\leq Y\leq y+h)=\int_{-\infty}^{x}\int_{y}^{y+h}p(u,v)dvdu\)
  • 分母(边缘概率):\(P(y\leq Y\leq y+h)=\int_{y}^{y+h}p_Y(v)dv\)

因此原式可写为:

\[P(X\leq x\mid y\leq Y\leq y+h)=\frac{\int_{-\infty}^{x}\int_{y}^{y+h}p(u,v)dvdu}{\int_{y}^{y+h}p_Y(v)dv} \]

步骤3:分子分母同除\(h\),为取极限做准备

\[P(X\leq x\mid y\leq Y\leq y+h)=\frac{\int_{-\infty}^{x}\left[\frac{1}{h}\int_{y}^{y+h}p(u,v)dv\right]du}{\frac{1}{h}\int_{y}^{y+h}p_Y(v)dv} \]

步骤4:利用积分中值定理处理积分项

假设\(p(x,y)\)\(p_Y(y)\)\(y\)处连续,对分子分母的积分分别应用积分中值定理:

  1. 分母:\(\frac{1}{h}\int_{y}^{y+h}p_Y(v)dv = \frac{1}{h}\cdot p_Y(\xi_h)\cdot h = p_Y(\xi_h)\),其中\(\xi_h\in[y,y+h]\)。当\(h\to0^+\)时,\(\xi_h\to y\),因此\(\lim_{h\to0^+}\frac{1}{h}\int_{y}^{y+h}p_Y(v)dv = p_Y(y)\)
  2. 分子内层积分:\(\frac{1}{h}\int_{y}^{y+h}p(u,v)dv = \frac{1}{h}\cdot p(u,\eta_h)\cdot h = p(u,\eta_h)\),其中\(\eta_h\in[y,y+h]\)。当\(h\to0^+\)时,\(\eta_h\to y\),因此\(\lim_{h\to0^+}\frac{1}{h}\int_{y}^{y+h}p(u,v)dv = p(u,y)\)

步骤5:交换极限与积分,得到最终结果

根据积分的控制收敛定理,极限与积分可交换顺序,因此分子的极限为:

\[\lim_{h\to0^+}\int_{-\infty}^{x}\left[\frac{1}{h}\int_{y}^{y+h}p(u,v)dv\right]du = \int_{-\infty}^{x}p(u,y)du \]

综上,条件分布函数的极限结果为:

\[F(x|y)=\int_{-\infty}^{x}\frac{p(u,y)}{p_Y(y)}du \]

步骤6:条件密度函数的推导

根据概率密度函数的定义,密度函数是分布函数的导数,对\(F(x|y)\)关于\(x\)求导,即可得到给定\(Y=y\)条件下\(X\)的条件概率密度函数

\[p(x|y)=\frac{dF(x|y)}{dx}=\frac{p(x,y)}{p_Y(y)} \]


三、连续型条件分布的严格定义

1. 给定\(Y=y\)条件下\(X\)的条件分布

对一切使\(p_Y(y)>0\)\(y\),定义:

  • 条件分布函数:

    \[\boldsymbol{F(x|y)=\int_{-\infty}^{x}\frac{p(u,y)}{p_Y(y)}du} \tag{3.5.5} \]

  • 条件概率密度函数:

    \[\boldsymbol{p(x|y)=\frac{p(x,y)}{p_Y(y)}} \tag{3.5.6} \]

2. 给定\(X=x\)条件下\(Y\)的条件分布

同理,对一切使\(p_X(x)>0\)\(x\),定义:

  • 条件分布函数:

    \[\boldsymbol{F(y|x)=\int_{-\infty}^{y}\frac{p(x,v)}{p_X(x)}dv} \tag{3.5.7} \]

  • 条件概率密度函数:

    \[\boldsymbol{p(y|x)=\frac{p(x,y)}{p_X(x)}} \tag{3.5.8} \]

3. 核心注意事项

条件分布函数\(F(x|y)\)和条件密度函数\(p(x|y)\),本质是\(y\)为参数的一簇分布:不同的\(y\)取值,对应\(X\)不同的概率分布,而非单一分布。同理\(F(y|x)\)\(p(y|x)\)是以\(x\)为参数的一簇分布。


四、经典例题完整解析

例3.5.4 二维正态分布的条件分布

题干

\((X,Y)\)服从二维正态分布\(N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\),求给定\(Y=y\)\(X\)的条件分布,以及给定\(X=x\)\(Y\)的条件分布。

步骤1:写出已知分布

  • 二维正态联合密度:

    \[p(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\exp\left\{ -\frac{1}{2(1-\rho^2)}\left[ \frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2} \right] \right\} \]

  • \(Y\)的边缘密度(一维正态分布\(N(\mu_2,\sigma_2^2)\)):

    \[p_Y(y)=\frac{1}{\sqrt{2\pi}\sigma_2}\exp\left\{ -\frac{(y-\mu_2)^2}{2\sigma_2^2} \right\} \]

步骤2:计算条件密度\(p(x|y)=p(x,y)/p_Y(y)\)

  1. 常数项化简

    \[\frac{\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}}{\frac{1}{\sqrt{2\pi}\sigma_2}} = \frac{1}{\sqrt{2\pi}\sigma_1\sqrt{1-\rho^2}} \]

  2. 指数项化简
    两个指数相除等价于指数部分相减,通分后合并同类项:

    \[\begin{align*} &-\frac{1}{2(1-\rho^2)}\left[ \frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2} \right] + \frac{(y-\mu_2)^2}{2\sigma_2^2}\\ =&-\frac{1}{2(1-\rho^2)}\left[ \frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\rho^2\frac{(y-\mu_2)^2}{\sigma_2^2} \right]\\ =&-\frac{1}{2\sigma_1^2(1-\rho^2)}\left[ x-\left( \mu_1+\rho\frac{\sigma_1}{\sigma_2}(y-\mu_2) \right) \right]^2 \end{align*} \]

    (注:括号内为完全平方展开,是正态密度的标准形式)

步骤3:结论

条件密度\(p(x|y)\)完全符合一维正态分布的密度形式,因此:
给定\(Y=y\)时,\(X\)服从正态分布\(N\left( \mu_1+\rho\frac{\sigma_1}{\sigma_2}(y-\mu_2),\ \sigma_1^2(1-\rho^2) \right)\)

同理可证:给定\(X=x\)时,\(Y\)服从正态分布\(N\left( \mu_2+\rho\frac{\sigma_2}{\sigma_1}(x-\mu_1),\ \sigma_2^2(1-\rho^2) \right)\)

核心性质解读

二维正态分布的边缘分布、条件分布均为一维正态分布,这是正态分布的核心优良性质,在多元统计、线性回归分析中是核心理论基础:条件均值正是\(X\)\(Y\)的线性回归方程,说明二维正态变量的回归是线性的。


例3.5.5 单位圆上均匀分布的条件分布

题干

设二维随机变量\((X,Y)\)服从单位圆\(G=\{(x,y)\mid x^2+y^2\leq1\}\)上的均匀分布,求给定\(Y=y\)条件下\(X\)的条件密度函数\(p(x|y)\)

步骤1:写出联合密度函数

单位圆的面积为\(\pi\),因此二维均匀分布的联合密度为:

\[p(x,y)= \begin{cases} \displaystyle\frac{1}{\pi}, & x^2+y^2\leq1 \\ 0, & \text{其他} \end{cases} \]

步骤2:计算\(Y\)的边缘密度\(p_Y(y)\)

对联合密度关于\(x\)积分,积分区间为\(x\in[-\sqrt{1-y^2},\sqrt{1-y^2}]\)(单位圆内\(y\)对应的\(x\)取值范围):

\[p_Y(y)=\int_{-\infty}^{+\infty}p(x,y)dx= \begin{cases} \displaystyle\int_{-\sqrt{1-y^2}}^{\sqrt{1-y^2}}\frac{1}{\pi}dx = \frac{2\sqrt{1-y^2}}{\pi}, & -1\leq y\leq1 \\ 0, & \text{其他} \end{cases} \]

步骤3:计算条件密度\(p(x|y)\)

\(-1<y<1\)时,\(p_Y(y)=\frac{2\sqrt{1-y^2}}{\pi}>0\),满足条件密度的定义前提,因此:

\[p(x|y)=\frac{p(x,y)}{p_Y(y)}= \begin{cases} \displaystyle\frac{1/\pi}{2\sqrt{1-y^2}/\pi} = \frac{1}{2\sqrt{1-y^2}}, & -\sqrt{1-y^2}\leq x\leq\sqrt{1-y^2} \\ 0, & \text{其他} \end{cases} \]

步骤4:特例验证与结论

  • \(y=0\)时,\(p(x|y=0)=\begin{cases}\displaystyle\frac{1}{2}, & -1\leq x\leq1 \\ 0, & \text{其他}\end{cases}\),即\(X|Y=0\)服从\((-1,1)\)上的均匀分布。
  • \(y=0.5\)时,\(p(x|y=0.5)=\begin{cases}\displaystyle\frac{1}{\sqrt{3}}, & -\frac{\sqrt{3}}{2}\leq x\leq\frac{\sqrt{3}}{2} \\ 0, & \text{其他}\end{cases}\),即\(X|Y=0.5\)服从\((-\frac{\sqrt{3}}{2},\frac{\sqrt{3}}{2})\)上的均匀分布。

最终结论:当\(-1<y<1\)时,给定\(Y=y\)条件下,\(X\)服从区间\((-\sqrt{1-y^2},\sqrt{1-y^2})\)上的均匀分布;同理,当\(-1<x<1\)时,给定\(X=x\)条件下,\(Y\)服从区间\((-\sqrt{1-x^2},\sqrt{1-x^2})\)上的均匀分布。


五、连续型条件分布的核心性质

  1. 密度函数的基本性质
    条件密度满足非负性与规范性:

    • 非负性:\(p(x|y)\geq0\)\(p(y|x)\geq0\)
    • 规范性:\(\int_{-\infty}^{+\infty}p(x|y)dx=1\)\(\int_{-\infty}^{+\infty}p(y|x)dy=1\)
  2. 乘法公式
    联合密度可分解为条件密度与边缘密度的乘积:

    \[p(x,y)=p(x|y)p_Y(y)=p(y|x)p_X(x) \]

  3. 全概率公式(连续型)
    边缘密度可通过条件密度对另一变量积分得到:

    \[p_X(x)=\int_{-\infty}^{+\infty}p(x|y)p_Y(y)dy,\quad p_Y(y)=\int_{-\infty}^{+\infty}p(y|x)p_X(x)dx \]

  4. 贝叶斯公式(连续型)

    \[p(x|y)=\frac{p(y|x)p_X(x)}{\int_{-\infty}^{+\infty}p(y|x)p_X(x)dx},\quad p(y|x)=\frac{p(x|y)p_Y(y)}{\int_{-\infty}^{+\infty}p(x|y)p_Y(y)dy} \]

  5. 独立性判定
    \(X\)\(Y\)相互独立,则条件密度等于边缘密度:

    \[p(x|y)=p_X(x),\quad p(y|x)=p_Y(y) \]

    反之,若上式对所有满足前提的\(x,y\)成立,则\(X\)\(Y\)独立。


六、离散型与连续型条件分布核心对比表

对比维度 离散型随机变量 连续型随机变量
核心前提 \(P(Y=y_j)=p_{\cdot j}>0\) \(p_Y(y)>0\)(单点概率\(P(Y=y)=0\),需极限定义)
条件分布列/密度 \(p_{i|j}=P(X=x_i|Y=y_j)=\frac{p_{ij}}{p_{\cdot j}}\) \(p(x|y)=\frac{p(x,y)}{p_Y(y)}\)
条件分布函数 \(F(x|y_j)=\sum_{x_i\leq x}p_{i|j}\) \(F(x|y)=\int_{-\infty}^{x}\frac{p(u,y)}{p_Y(y)}du\)
乘法公式 \(p_{ij}=p_{i|j}p_{\cdot j}=p_{j|i}p_{i\cdot}\) \(p(x,y)=p(x|y)p_Y(y)=p(y|x)p_X(x)\)
全概率公式 \(p_{i\cdot}=\sum_{j}p_{i|j}p_{\cdot j}\) \(p_X(x)=\int_{-\infty}^{+\infty}p(x|y)p_Y(y)dy\)
独立性判定 独立\(\iff p_{i|j}=p_{i\cdot}\)对所有\(i,j\)成立 独立\(\iff p(x|y)=p_X(x)\)对所有满足前提的\(x,y\)成立
本质特征 有限/可列个取值,直接用条件概率定义 连续取值,通过极限逼近定义,用密度函数刻画分布

连续场合的全概率公式与贝叶斯公式 深度讲解与完整推导

一、前置知识回顾

上一节我们定义了连续型随机变量的条件概率密度,这是本次推导的核心基础:

  • 对一切使\(p_X(x)>0\)\(x\),给定\(X=x\)\(Y\)的条件密度:

    \[p(y|x)=\frac{p(x,y)}{p_X(x)} \]

  • 对一切使\(p_Y(y)>0\)\(y\),给定\(Y=y\)\(X\)的条件密度:

    \[p(x|y)=\frac{p(x,y)}{p_Y(y)} \]


二、连续型联合密度的乘法公式

将条件密度公式变形,即可得到联合密度的乘法分解公式,对应离散型的“联合概率=边缘概率×条件概率”:

\[\boldsymbol{p(x,y) = p_X(x) \cdot p(y|x)} \tag{3.5.9} \]

\[\boldsymbol{p(x,y) = p_Y(y) \cdot p(x|y)} \tag{3.5.10} \]

核心意义

仅靠两个变量的边缘分布无法确定联合分布,但边缘分布+条件分布可以唯一确定联合分布,这是刻画连续型随机变量相依关系的核心工具,也是全概率、贝叶斯公式的推导基础。


三、连续场合的全概率公式

1. 离散→连续的类比逻辑

离散型全概率公式:若\(A_1,A_2,\dots\)是样本空间的划分,则对任意事件\(B\),有

\[P(B)=\sum_{i=1}^\infty P(A_i)P(B|A_i) \]

连续型中,随机变量\(X\)的取值是连续的,相当于把样本空间划分为无穷多个“\(X=x\)”的微元,求和替换为积分,概率替换为密度函数,即可得到连续型全概率公式。

2. 严格推导

根据边缘密度的定义,\(Y\)的边缘密度是联合密度对\(x\)的积分:

\[p_Y(y) = \int_{-\infty}^{+\infty} p(x,y) dx \]

将乘法公式(3.5.9)代入,替换联合密度\(p(x,y)\),得到连续场合全概率公式的密度形式

\[\boldsymbol{p_Y(y) = \int_{-\infty}^{+\infty} p_X(x) \cdot p(y|x) dx} \tag{3.5.11} \]

同理,\(X\)的边缘密度可表示为:

\[\boldsymbol{p_X(x) = \int_{-\infty}^{+\infty} p_Y(y) \cdot p(x|y) dy} \tag{3.5.12} \]

3. 核心解读

公式的本质是:要计算\(Y\)的边缘密度,需将所有\(X\)的取值对\(Y\)的概率贡献累加(积分),即“\(X=x\)的边缘密度”乘以“给定\(X=x\)\(Y\)的条件密度”,再对所有\(x\)积分。
典型应用:混合分布密度计算、贝叶斯统计的边缘似然求解、随机过程的状态转移密度计算。


四、连续场合的贝叶斯公式

1. 离散→连续的类比逻辑

离散型贝叶斯公式:

\[P(A_i|B)=\frac{P(A_i)P(B|A_i)}{\sum_{j=1}^\infty P(A_j)P(B|A_j)} \]

连续型中,将事件\(A_i\)替换为“\(X=x\)”,事件\(B\)替换为“\(Y=y\)”,求和换为积分,概率换为密度,即可得到连续型贝叶斯公式。

2. 严格推导

根据条件密度的定义:

\[p(x|y) = \frac{p(x,y)}{p_Y(y)} \]

  • 分子:用乘法公式(3.5.9)替换为\(p_X(x)p(y|x)\)
  • 分母:用全概率公式(3.5.11)替换为\(\int_{-\infty}^{+\infty} p_X(x)p(y|x)dx\)

代入后得到连续场合贝叶斯公式的密度形式

\[\boldsymbol{p(x|y) = \frac{p_X(x) \cdot p(y|x)}{\int_{-\infty}^{+\infty} p_X(x) \cdot p(y|x) dx}} \tag{3.5.13} \]

3. 核心概念:分布的核

对于概率密度函数,仅与随机变量有关、不含归一化常数的部分,称为该分布的核。
例如正态分布\(N(\mu,\sigma^2)\)的密度为\(\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\),其核为\(\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\),前面的系数是保证积分等于1的归一化常数。

对于贝叶斯公式(3.5.13),分母是对\(x\)积分的结果,仅与\(y\)有关、与\(x\)无关,相当于\(p(x|y)\)的归一化常数。因此贝叶斯公式可简化为核的形式:

\[\boldsymbol{p(x|y) \propto p_X(x) \cdot p(y|x)} \tag{3.5.14} \]

含义:后验分布的核 = 先验分布的核 × 似然函数的核,无需计算复杂积分即可判断分布类型,是贝叶斯统计的核心简化技巧。

4. 核心意义

在贝叶斯统计中:

  • \(p_X(x)\)先验分布,观测到\(Y\)之前对\(X\)的分布认知;
  • \(p(y|x)\)似然函数,观测到\(Y=y\)时关于\(X\)的似然;
  • \(p(x|y)\)后验分布,观测到\(Y\)之后对\(X\)分布的更新认知。

贝叶斯公式实现了从先验到后验的统计推断,是贝叶斯方法的核心基石。


五、例3.5.6 超详细逐行推导(补全所有跳步)

题干重述

设随机变量\(X \sim N(\mu,\sigma_1^2)\),在\(X=x\)的条件下,\(Y\)的条件分布为\(N(x,\sigma_2^2)\)。求\(Y\)的无条件(边缘)密度\(p_Y(y)\),并确定其分布。

步骤1:写出已知密度函数

  1. \(X\)的边缘密度(正态分布\(N(\mu,\sigma_1^2)\)):

    \[p_X(x) = \frac{1}{\sqrt{2\pi}\sigma_1} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma_1^2} \right\} \]

  2. 给定\(X=x\)\(Y\)的条件密度(正态分布\(N(x,\sigma_2^2)\)):

    \[p(y|x) = \frac{1}{\sqrt{2\pi}\sigma_2} \exp\left\{ -\frac{(y-x)^2}{2\sigma_2^2} \right\} \]

步骤2:代入全概率公式

根据(3.5.11),\(Y\)的边缘密度为:

\[\begin{align*} p_Y(y) &= \int_{-\infty}^{+\infty} p_X(x) p(y|x) dx \\ &= \frac{1}{2\pi\sigma_1\sigma_2} \int_{-\infty}^{+\infty} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma_1^2} - \frac{(y-x)^2}{2\sigma_2^2} \right\} dx \end{align*} \]

步骤3:指数部分的代数变形(核心难点)

单独处理指数部分\(I\)

\[I = -\frac{(x-\mu)^2}{2\sigma_1^2} - \frac{(y-x)^2}{2\sigma_2^2} \]

提取公因子\(-\frac{1}{2}\),展开平方项并合并同类项:

\[\begin{align*} I &= -\frac{1}{2} \left[ \frac{x^2-2\mu x+\mu^2}{\sigma_1^2} + \frac{x^2-2yx+y^2}{\sigma_2^2} \right] \\ &= -\frac{1}{2\sigma_1^2\sigma_2^2} \left[ (\sigma_1^2+\sigma_2^2)x^2 - 2(\sigma_2^2\mu + \sigma_1^2 y)x + (\sigma_2^2\mu^2 + \sigma_1^2 y^2) \right] \end{align*} \]

步骤4:对\(x\)的二次函数配方(正态积分核心)

二次函数配方公式:\(ax^2-2bx+c = a\left(x-\frac{b}{a}\right)^2 + \left(c-\frac{b^2}{a}\right)\),其中:

\[a=\frac{\sigma_1^2+\sigma_2^2}{\sigma_1^2\sigma_2^2},\quad b=\frac{\sigma_2^2\mu + \sigma_1^2 y}{\sigma_1^2\sigma_2^2} \]

  1. 均值项:\(\frac{b}{a} = \frac{\sigma_2^2\mu + \sigma_1^2 y}{\sigma_1^2+\sigma_2^2}\)
  2. 常数项(与\(x\)无关):\(c-\frac{b^2}{a} = \frac{(y-\mu)^2}{\sigma_1^2+\sigma_2^2}\)

因此指数部分可配方为:

\[I = -\frac{1}{2}\cdot\frac{\sigma_1^2+\sigma_2^2}{\sigma_1^2\sigma_2^2}\left(x - \frac{\sigma_2^2\mu + \sigma_1^2 y}{\sigma_1^2+\sigma_2^2}\right)^2 - \frac{(y-\mu)^2}{2(\sigma_1^2+\sigma_2^2)} \]

步骤5:计算正态积分

正态分布积分性质:\(\int_{-\infty}^{+\infty} \exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}dx = \sqrt{2\pi}\sigma\),此处积分对应的方差\(\sigma^2=\frac{\sigma_1^2\sigma_2^2}{\sigma_1^2+\sigma_2^2}\),因此:

\[\int_{-\infty}^{+\infty} \exp\left\{ -\frac{1}{2}\cdot\frac{\sigma_1^2+\sigma_2^2}{\sigma_1^2\sigma_2^2}\left(x - \frac{\sigma_2^2\mu + \sigma_1^2 y}{\sigma_1^2+\sigma_2^2}\right)^2 \right\} dx = \sqrt{2\pi} \cdot \frac{\sigma_1\sigma_2}{\sqrt{\sigma_1^2+\sigma_2^2}} \]

步骤6:化简得到最终结果

将积分结果代回\(p_Y(y)\),约分化简后:

\[p_Y(y) = \frac{1}{\sqrt{2\pi(\sigma_1^2+\sigma_2^2)}} \exp\left\{ -\frac{(y-\mu)^2}{2(\sigma_1^2+\sigma_2^2)} \right\} \]

最终结论

该密度完全符合一维正态分布的形式,因此\(Y\)服从正态分布\(N(\mu,\sigma_1^2+\sigma_2^2)\)

直观解读

本例本质是\(Y=X+\varepsilon\),其中\(X\sim N(\mu,\sigma_1^2)\)\(\varepsilon\sim N(0,\sigma_2^2)\)且与\(X\)独立,符合正态分布的可加性,验证了推导的正确性。


六、离散型vs连续型公式对比总结表

公式类型 离散型随机变量 连续型随机变量 核心对应关系
乘法公式 \(p_{ij}=p_{i\cdot}p_{j|i}=p_{\cdot j}p_{i|j}\) \(p(x,y)=p_X(x)p(y|x)=p_Y(y)p(x|y)\) 联合=边缘×条件
全概率公式 \(p_{\cdot j}=\sum_{i=1}^\infty p_{i\cdot}p_{j|i}\)
\(p_{i\cdot}=\sum_{j=1}^\infty p_{\cdot j}p_{i|j}\)
\(p_Y(y)=\int_{-\infty}^{+\infty}p_X(x)p(y|x)dx\)
\(p_X(x)=\int_{-\infty}^{+\infty}p_Y(y)p(x|y)dy\)
求和→积分,概率→密度
贝叶斯公式 \(p_{i|j}=\frac{p_{i\cdot}p_{j|i}}{\sum_{k}p_{k\cdot}p_{j|k}}\) \(p(x|y)=\frac{p_X(x)p(y|x)}{\int_{-\infty}^{+\infty}p_X(x)p(y|x)dx}\) 分母为全概率结果
核简化表示 \(P(A_i|B) \propto P(A_i)P(B|A_i)\) \(p(x|y) \propto p_X(x)p(y|x)\) 忽略归一化常数,保留变量相关核
核心应用 古典概型、离散状态统计推断 贝叶斯统计、混合分布建模、随机过程 实现“先验/边缘→条件→后验/边缘”的推断逻辑

连续场合的全概率公式与贝叶斯公式 完整讲解与推导

一、前置基础回顾

本部分内容的核心基础是连续型随机变量的条件概率密度,先明确核心定义:
对于二维连续型随机变量\((X,Y)\)

  • 若边缘密度\(p_X(x)>0\),则给定\(X=x\)\(Y\)的条件概率密度为:

    \[p(y|x) = \frac{p(x,y)}{p_X(x)} \]

  • 若边缘密度\(p_Y(y)>0\),则给定\(Y=y\)\(X\)的条件概率密度为:

    \[p(x|y) = \frac{p(x,y)}{p_Y(y)} \]


二、联合密度的乘法公式

将条件密度公式变形,即可得到联合密度的乘法分解公式,对应离散型“联合概率=边缘概率×条件概率”的逻辑:

\[\boldsymbol{p(x,y) = p_X(x) \cdot p(y|x)} \tag{3.5.9} \]

\[\boldsymbol{p(x,y) = p_Y(y) \cdot p(x|y)} \tag{3.5.10} \]

核心意义

仅靠两个变量的边缘分布无法确定联合分布,但边缘分布+对应的条件分布,可以唯一确定联合分布,这是刻画连续型随机变量相依关系的核心工具,也是全概率、贝叶斯公式的推导基础。


三、连续场合的全概率公式

1. 离散→连续的类比逻辑

离散型全概率公式:若\(A_1,A_2,\dots\)是样本空间的划分,则对任意事件\(B\),有

\[P(B)=\sum_{i=1}^\infty P(A_i)P(B|A_i) \]

连续型中,随机变量\(X\)的取值是连续的,相当于把样本空间划分为无穷多个“\(X=x\)”的微元事件,此时求和运算替换为积分运算,概率替换为概率密度函数

2. 严格推导

根据边缘密度的定义,\(Y\)的边缘密度是联合密度对\(x\)在全空间的积分:

\[p_Y(y) = \int_{-\infty}^{+\infty} p(x,y) dx \]

将乘法公式(3.5.9)代入,替换联合密度\(p(x,y)\),得到连续场合全概率公式的密度形式

\[\boldsymbol{p_Y(y) = \int_{-\infty}^{+\infty} p_X(x) \cdot p(y|x) dx} \tag{3.5.11} \]

同理,\(X\)的边缘密度可表示为:

\[\boldsymbol{p_X(x) = \int_{-\infty}^{+\infty} p_Y(y) \cdot p(x|y) dy} \tag{3.5.12} \]

3. 核心意义与应用

公式本质是:计算\(Y\)的边缘密度时,需累加(积分)所有\(X\)的取值对\(Y\)的概率贡献——每一个\(X=x\)的贡献为“\(X=x\)的边缘密度”乘以“给定\(X=x\)\(Y\)的条件密度”。
典型应用场景:混合分布密度计算、贝叶斯统计的边缘似然求解、带噪声的观测模型边缘分布计算、随机过程状态转移密度求解。


四、连续场合的贝叶斯公式

1. 公式严格推导

根据条件密度的定义,给定\(Y=y\)\(X\)的条件密度为:

\[p(x|y) = \frac{p(x,y)}{p_Y(y)} \]

  • 分子:用乘法公式(3.5.9)替换为\(p_X(x) \cdot p(y|x)\)
  • 分母:用全概率公式(3.5.11)替换为\(\int_{-\infty}^{+\infty} p_X(x) \cdot p(y|x) dx\)

代入后得到连续场合贝叶斯公式的密度形式

\[\boldsymbol{p(x|y) = \frac{p_X(x) \cdot p(y|x)}{\int_{-\infty}^{+\infty} p_X(x) \cdot p(y|x) dx}} \tag{3.5.13} \]

2. 分布的核与简化形式

对于概率密度函数,仅与随机变量有关、不含归一化常数的部分,称为该分布的核
例如正态分布\(N(\mu,\sigma^2)\)的密度为\(\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\),其核为\(\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\),前面的系数是保证积分等于1的归一化常数。

对于贝叶斯公式(3.5.13),分母是对\(x\)积分的结果,仅与\(y\)有关、与\(x\)无关,相当于\(p(x|y)\)的归一化常数。因此贝叶斯公式可简化为核的比例形式:

\[\boldsymbol{p(x|y) \propto p_X(x) \cdot p(y|x)} \tag{3.5.14} \]

含义:后验分布的核 = 先验分布的核 × 似然函数的核。该简化无需计算复杂积分,即可判断分布类型,是贝叶斯统计的核心技巧。

3. 贝叶斯统计意义

  • \(p_X(x)\)先验分布,观测到\(Y\)之前对\(X\)的分布认知;
  • \(p(y|x)\)似然函数,观测到\(Y=y\)时关于\(X\)的似然;
  • \(p(x|y)\)后验分布,观测到\(Y\)之后对\(X\)分布的更新认知。

贝叶斯公式实现了从先验到后验的统计推断,是贝叶斯方法的核心基石。


五、例3.5.6 超详细逐行推导(补全教材跳步)

题干

设随机变量\(X \sim N(\mu,\sigma_1^2)\),在\(X=x\)的条件下,\(Y\)的条件分布为\(N(x,\sigma_2^2)\)。求\(Y\)的无条件(边缘)密度函数\(p_Y(y)\),并确定其分布。

步骤1:写出已知密度函数

  1. \(X\)的边缘密度(正态分布\(N(\mu,\sigma_1^2)\)):

    \[p_X(x) = \frac{1}{\sqrt{2\pi}\sigma_1} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma_1^2} \right\} \]

  2. 给定\(X=x\)\(Y\)的条件密度(正态分布\(N(x,\sigma_2^2)\)):

    \[p(y|x) = \frac{1}{\sqrt{2\pi}\sigma_2} \exp\left\{ -\frac{(y-x)^2}{2\sigma_2^2} \right\} \]

步骤2:代入全概率公式

根据(3.5.11),\(Y\)的边缘密度为:

\[\begin{align*} p_Y(y) &= \int_{-\infty}^{+\infty} p_X(x) p(y|x) dx \\ &= \frac{1}{2\pi\sigma_1\sigma_2} \int_{-\infty}^{+\infty} \exp\left\{ -\frac{(x-\mu)^2}{2\sigma_1^2} - \frac{(y-x)^2}{2\sigma_2^2} \right\} dx \end{align*} \]

步骤3:指数部分展开与合并

单独处理指数部分\(I\),展开平方项并拆分关于\(x\)的项:

\[\begin{align*} I &= -\frac{(x-\mu)^2}{2\sigma_1^2} - \frac{(y-x)^2}{2\sigma_2^2} \\ &= -\frac{1}{2} \left[ \frac{x^2-2\mu x+\mu^2}{\sigma_1^2} + \frac{x^2-2yx+y^2}{\sigma_2^2} \right] \\ &= -\frac{1}{2}\left( \frac{1}{\sigma_1^2} + \frac{1}{\sigma_2^2} \right)x^2 + \left( \frac{\mu}{\sigma_1^2} + \frac{y}{\sigma_2^2} \right)x - \frac{1}{2}\left( \frac{\mu^2}{\sigma_1^2} + \frac{y^2}{\sigma_2^2} \right) \end{align*} \]

\(x\)无关的项可提到积分外,因此:

\[p_Y(y) \propto \int_{-\infty}^{+\infty} \exp\left\{ -\frac{1}{2}\left( \frac{1}{\sigma_1^2}+\frac{1}{\sigma_2^2} \right)x^2 + \left( \frac{y}{\sigma_2^2}+\frac{\mu}{\sigma_1^2} \right)x \right\} dx \cdot \exp\left\{ -\frac{y^2}{2\sigma_2^2} \right\} \]

步骤4:对\(x\)的二次函数配方

利用完全平方公式\(ax^2-2bx+c = a\left(x-\frac{b}{a}\right)^2 + \left(c-\frac{b^2}{a}\right)\),令:

\[a = \frac{1}{2}\left( \frac{1}{\sigma_1^2} + \frac{1}{\sigma_2^2} \right),\quad b = \frac{1}{2}\left( \frac{\mu}{\sigma_1^2} + \frac{y}{\sigma_2^2} \right) \]

指数部分可配方为:

\[I = -a\left(x - \frac{b}{a}\right)^2 + \frac{b^2}{a} - \frac{\mu^2}{2\sigma_1^2} - \frac{y^2}{2\sigma_2^2} \]

其中\(\frac{b}{a} = \frac{\mu\sigma_2^2 + y\sigma_1^2}{\sigma_1^2+\sigma_2^2}\),是正态分布的均值项。

步骤5:计算正态积分

利用正态积分性质\(\int_{-\infty}^{+\infty} \exp\left\{-a\left(x-\frac{b}{a}\right)^2\right\}dx = \sqrt{\frac{\pi}{a}}\),代入\(a\)的表达式得:

\[\int_{-\infty}^{+\infty} \exp\left\{-a\left(x-\frac{b}{a}\right)^2\right\}dx = \sigma_1\sigma_2\sqrt{\frac{2\pi}{\sigma_1^2+\sigma_2^2}} \]

步骤6:化简得到最终结果

将积分结果代回\(p_Y(y)\),化简常数项和指数部分:

  • 常数项化简为\(\frac{1}{\sqrt{2\pi(\sigma_1^2+\sigma_2^2)}}\),符合正态分布的归一化常数;
  • 指数部分化简为\(-\frac{(y-\mu)^2}{2(\sigma_1^2+\sigma_2^2)}\),符合正态分布的指数形式。

最终结论

\(Y\)的边缘密度为:

\[p_Y(y) = \frac{1}{\sqrt{2\pi(\sigma_1^2+\sigma_2^2)}} \exp\left\{ -\frac{(y-\mu)^2}{2(\sigma_1^2+\sigma_2^2)} \right\} \]

因此\(Y\)服从正态分布\(N(\mu,\sigma_1^2+\sigma_2^2)\)

直观解读

本例本质是带噪声的观测模型\(Y=X+\varepsilon\),其中\(\varepsilon\sim N(0,\sigma_2^2)\)且与\(X\)独立,符合正态分布的可加性,验证了推导的正确性。


六、离散型vs连续型公式对比总结表

公式类型 离散型随机变量 连续型随机变量 核心对应关系
乘法公式 \(p_{ij} = p_{i\cdot} \cdot p_{j|i} = p_{\cdot j} \cdot p_{i|j}\) \(p(x,y) = p_X(x) \cdot p(y|x) = p_Y(y) \cdot p(x|y)\) 联合分布 = 边缘分布 × 条件分布
全概率公式 \(p_{\cdot j} = \sum_{i=1}^\infty p_{i\cdot} \cdot p_{j|i}\)
\(p_{i\cdot} = \sum_{j=1}^\infty p_{\cdot j} \cdot p_{i|j}\)
\(p_Y(y) = \int_{-\infty}^{+\infty} p_X(x) \cdot p(y|x) dx\)
\(p_X(x) = \int_{-\infty}^{+\infty} p_Y(y) \cdot p(x|y) dy\)
离散求和 → 连续积分,概率 → 密度
贝叶斯公式 \(p_{i|j} = \frac{p_{i\cdot} \cdot p_{j|i}}{\sum_{k} p_{k\cdot} \cdot p_{j|k}}\) \(p(x|y) = \frac{p_X(x) \cdot p(y|x)}{\int_{-\infty}^{+\infty} p_X(x) \cdot p(y|x) dx}\) 分母为全概率公式的结果
核简化形式 \(P(A_i|B) \propto P(A_i) \cdot P(B|A_i)\) \(p(x|y) \propto p_X(x) \cdot p(y|x)\) 忽略归一化常数,仅保留与随机变量相关的核
核心意义 离散事件的贝叶斯推断 连续参数的贝叶斯统计推断 实现“先验认知 + 观测数据 → 后验更新”的逻辑
典型应用 古典概型、离散马尔可夫链 贝叶斯参数估计、信号处理、混合分布建模

七、核心要点总结

  1. 连续型乘法公式解决了“边缘分布无法确定联合分布”的问题,边缘分布+条件分布可唯一确定联合分布;
  2. 连续型全概率公式是离散全概率的连续推广,核心是用积分替代求和,累加所有中间变量的概率贡献;
  3. 连续型贝叶斯公式是贝叶斯统计的核心,利用分布的核可大幅简化计算,无需复杂积分即可判断后验分布类型;
  4. 正态分布具有优良的闭合性:正态先验+正态似然,得到的边缘分布仍为正态分布,符合正态分布的可加性。

条件数学期望 深度讲解与完整推导

条件数学期望(简称条件期望)是条件分布的数字特征,是概率论与数理统计中连接条件分布与期望理论的核心工具,在随机过程、贝叶斯统计、计量经济学、机器学习等领域有不可替代的作用。我们将从定义出发,拆解核心本质,完成严谨的定理证明,结合实例讲透应用逻辑。


一、前置知识回顾

条件期望的定义建立在条件分布的基础上,先回顾核心前提:

  1. 离散型:给定\(Y=y_j\)\(X\)的条件分布列\(P(X=x_i|Y=y_j)=p_{i|j}\),描述了固定\(Y=y_j\)\(X\)的概率分布;
  2. 连续型:给定\(Y=y\)\(X\)的条件概率密度\(p(x|y)\),描述了固定\(Y=y\)\(X\)的概率密度分布。

条件期望的本质,就是上述条件分布的数学期望:和普通期望的核心区别是,期望是在全样本空间上的平均,而条件期望是在“给定\(Y\)取某个值”的缩小样本空间上的平均。


二、条件数学期望的严格定义

定义3.5.4 条件数学期望

\((X,Y)\)是二维随机变量,条件分布的数学期望(若存在)称为条件期望,分两种情况定义:

1. 二维离散型随机变量

对一切使\(P(Y=y_j)>0\)\(y_j\)给定\(Y=y_j\)条件下\(X\)的条件期望为:

\[\boldsymbol{E(X|Y=y_j) = \sum_{i} x_i P(X=x_i|Y=y_j)} \tag{3.5.15-离散} \]

对一切使\(P(X=x_i)>0\)\(x_i\)给定\(X=x_i\)条件下\(Y\)的条件期望为:

\[\boldsymbol{E(Y|X=x_i) = \sum_{j} y_j P(Y=y_j|X=x_i)} \tag{3.5.16-离散} \]

2. 二维连续型随机变量

对一切使\(p_Y(y)>0\)\(y\)给定\(Y=y\)条件下\(X\)的条件期望为:

\[\boldsymbol{E(X|Y=y) = \int_{-\infty}^{+\infty} x p(x|y) dx} \tag{3.5.15-连续} \]

对一切使\(p_X(x)>0\)\(x\)给定\(X=x\)条件下\(Y\)的条件期望为:

\[\boldsymbol{E(Y|X=x) = \int_{-\infty}^{+\infty} y p(y|x) dy} \tag{3.5.16-连续} \]

定义核心解读

  1. 计算逻辑:和普通期望完全一致,仅把“无条件分布”替换为“条件分布”——离散型用条件分布列加权求和,连续型用条件密度加权积分。
  2. 本质区别
    • 无条件期望\(E(X)\)是一个确定的常数,是\(X\)在全样本空间的整体平均;
    • 条件期望\(E(X|Y=y)\)是一个关于\(y\)的确定性函数\(y\)取不同的值,样本空间缩小的范围不同,\(X\)的条件平均也会随之变化。

三、条件期望的核心进阶:从确定性函数到随机变量

这是条件期望最核心、也是初学者最容易混淆的知识点,我们分两步拆解:

第一步:\(E(X|Y=y)\)\(y\)的函数

我们记\(g(y) = E(X|Y=y)\),对于每一个确定的\(y\)\(g(y)\)是一个确定的数值,描述了“当\(Y=y\)时,\(X\)的条件平均”。

举教材中的实例:

  • \(X\)表示中国成年人的身高,\(Y\)表示足长,公安部门的研究得到\(E(X|Y=y)=6.876y\)
    • \(y=25.3\ \text{cm}\)时,\(E(X|Y=25.3)=6.876\times25.3\approx174\ \text{cm}\),即足长25.3cm的成年人,平均身高约174cm;
    • \(y=26\ \text{cm}\)时,\(E(X|Y=26)=6.876\times26\approx178.8\ \text{cm}\),即足长26cm的成年人,平均身高约178.8cm。

可见,\(y\)变化时,\(g(y)=E(X|Y=y)\)也随之变化,是一个以\(y\)为自变量的函数。

第二步:\(E(X|Y)\)是一个随机变量

既然\(g(y)=E(X|Y=y)\)\(y\)的函数,我们把自变量替换为随机变量\(Y\),就得到了一个以\(Y\)为自变量的随机变量,记为:

\[\boldsymbol{E(X|Y) = g(Y)} \]

核心性质

  • \(Y=y\)时,\(E(X|Y)\)的取值就是\(E(X|Y=y)\)
  • \(E(X|Y)\)的随机性完全由\(Y\)的随机性决定,它本身是一个随机变量,拥有自己的分布、期望、方差。

这个定义的意义在于:它把不同\(y\)对应的条件期望,统一成了一个随机变量,为后续重期望公式提供了理论基础,也让条件期望成为了随机过程中鞅论、马尔可夫过程的核心工具。


四、条件期望的基本性质

条件期望本质是“条件分布下的数学期望”,因此它继承了普通数学期望的所有性质,核心性质如下:

1. 线性性(最常用)

对任意常数\(a_1,a_2\),以及随机变量\(X_1,X_2\),有:

\[\boldsymbol{E(a_1X_1 + a_2X_2 | Y) = a_1E(X_1|Y) + a_2E(X_2|Y)} \]

对固定的\(Y=y\),同样有:

\[E(a_1X_1 + a_2X_2 | Y=y) = a_1E(X_1|Y=y) + a_2E(X_2|Y=y) \]

含义:条件期望的线性组合,等于线性组合的条件期望,和普通期望的线性性完全一致。

2. 其他核心性质

  • 非负性:若\(X\geq0\),则\(E(X|Y)\geq0\)
  • 单调性:若\(X_1\geq X_2\),则\(E(X_1|Y)\geq E(X_2|Y)\)
  • 常数的条件期望:对任意常数\(c\)\(E(c|Y)=c\)
  • 可提取性:若\(h(Y)\)\(Y\)的函数,则\(E(h(Y)X | Y) = h(Y)E(X|Y)\)
    (直观意义:给定\(Y\)时,\(h(Y)\)是一个确定的常数,因此可以提到条件期望外面)
  • 独立性简化:若\(X\)\(Y\)相互独立,则\(E(X|Y)=E(X)\)
    (直观意义:\(X\)\(Y\)独立时,\(Y\)的取值不影响\(X\)的分布,因此条件平均等于整体平均)
  • 柯西-施瓦茨不等式\([E(XY|Y)]^2 \leq E(X^2|Y)E(Y^2|Y)\)

五、核心定理:重期望公式(全期望公式)

重期望公式是条件期望最核心的应用定理,是概率论中极为深刻的结论,也是连接条件期望与无条件期望的桥梁。

定理3.5.1 重期望公式

\((X,Y)\)是二维随机变量,且\(E(X)\)存在,则:

\[\boldsymbol{E(X) = E\left[ E(X|Y) \right]} \tag{3.5.17} \]

直观解读

这个公式的本质是:整体平均 = 分组平均的加权平均
比如求全校学生的平均身高\(E(X)\)

  1. 先按班级\(Y\)分组,求出每个班级的平均身高\(E(X|Y=y_j)\)(分组平均);
  2. 再按每个班级的人数占比\(P(Y=y_j)\)加权,对所有班级的平均身高求平均,就得到全校的平均身高。

严格证明

我们分别对连续型离散型两种情况完成证明,教材中仅证明了连续型,这里补充离散型的完整证明。

1. 连续型随机变量的证明

设二维连续型随机变量\((X,Y)\)的联合密度为\(p(x,y)\),边缘密度为\(p_X(x),p_Y(y)\),条件密度为\(p(x|y)\)

第一步:写出\(X\)的无条件期望的定义

\[E(X) = \int_{-\infty}^{+\infty} x p_X(x) dx \]

第二步:用全概率公式替换边缘密度\(p_X(x)\)
由连续型全概率公式,\(p_X(x) = \int_{-\infty}^{+\infty} p(x|y)p_Y(y) dy\),代入得:

\[E(X) = \int_{-\infty}^{+\infty} x \left( \int_{-\infty}^{+\infty} p(x|y)p_Y(y) dy \right) dx \]

第三步:交换积分次序(由富比尼定理,期望存在时积分次序可交换)

\[E(X) = \int_{-\infty}^{+\infty} \left( \int_{-\infty}^{+\infty} x p(x|y) dx \right) p_Y(y) dy \]

第四步:识别内层积分是条件期望\(E(X|Y=y)\)
内层积分\(\int_{-\infty}^{+\infty} x p(x|y) dx = E(X|Y=y) = g(y)\),因此:

\[E(X) = \int_{-\infty}^{+\infty} g(y) p_Y(y) dy = E\left[ g(Y) \right] = E\left[ E(X|Y) \right] \]

连续型情况得证。

2. 离散型随机变量的证明

设二维离散型随机变量\((X,Y)\)的联合分布列为\(P(X=x_i,Y=y_j)\),边缘分布列为\(P(X=x_i),P(Y=y_j)\),条件分布列为\(P(X=x_i|Y=y_j)\)

第一步:写出\(X\)的无条件期望的定义

\[E(X) = \sum_{i} x_i P(X=x_i) \]

第二步:用离散型全概率公式替换边缘概率\(P(X=x_i)\)
\(P(X=x_i) = \sum_{j} P(X=x_i|Y=y_j)P(Y=y_j)\),代入得:

\[E(X) = \sum_{i} x_i \left( \sum_{j} P(X=x_i|Y=y_j)P(Y=y_j) \right) \]

第三步:交换求和次序

\[E(X) = \sum_{j} \left( \sum_{i} x_i P(X=x_i|Y=y_j) \right) P(Y=y_j) \]

第四步:识别内层求和是条件期望\(E(X|Y=y_j)\)
内层求和\(\sum_{i} x_i P(X=x_i|Y=y_j) = E(X|Y=y_j) = g(y_j)\),因此:

\[E(X) = \sum_{j} g(y_j) P(Y=y_j) = E\left[ g(Y) \right] = E\left[ E(X|Y) \right] \]

离散型情况得证。

重期望公式的两种具体形式

根据\(Y\)的类型,重期望公式可写为更具体的形式,方便直接计算:

1. \(Y\)是离散型随机变量

\(Y\)的可能取值为\(y_1,y_2,\dots\),则:

\[\boldsymbol{E(X) = \sum_{j} E(X|Y=y_j) P(Y=y_j)} \tag{3.5.18} \]

2. \(Y\)是连续型随机变量

\(Y\)的边缘密度为\(p_Y(y)\),则:

\[\boldsymbol{E(X) = \int_{-\infty}^{+\infty} E(X|Y=y) p_Y(y) dy} \tag{3.5.19} \]


六、经典例题解析

例1:二维正态分布的条件期望

\((X,Y)\)服从二维正态分布\(N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\),求\(E(X|Y=y)\)

由之前的结论,给定\(Y=y\)时,\(X\)的条件分布为一维正态分布:

\[X|Y=y \sim N\left( \mu_1 + \rho\frac{\sigma_1}{\sigma_2}(y-\mu_2),\ \sigma_1^2(1-\rho^2) \right) \]

而正态分布的期望就是其第一个参数,因此直接得到:

\[E(X|Y=y) = \mu_1 + \rho\frac{\sigma_1}{\sigma_2}(y-\mu_2) \]

解读

  1. 二维正态分布的条件期望是\(y\)线性函数,这也是线性回归的理论基础;
  2. \(\rho=0\)\(X\)\(Y\)独立)时,\(E(X|Y=y)=\mu_1=E(X)\),符合独立时条件期望等于无条件期望的性质;
  3. 教材中身高和足长的例子,本质就是二维正态分布的条件期望,因此得到的是线性公式\(E(X|Y=y)=6.876y\)

例2:重期望公式的数值应用

设随机变量\(Y\)服从参数为\(\lambda=2\)的泊松分布,给定\(Y=n\)时,\(X\)服从二项分布\(b(n,p=0.5)\),求\(E(X)\)

第一步:写出条件期望
给定\(Y=n\)时,\(X\sim b(n,0.5)\),因此条件期望\(E(X|Y=n)=np=0.5n\),即\(E(X|Y)=0.5Y\)

第二步:应用重期望公式

\[E(X) = E\left[ E(X|Y) \right] = E(0.5Y) = 0.5E(Y) \]

\(Y\sim P(2)\),因此\(E(Y)=2\),代入得:

\[E(X)=0.5\times2=1 \]

解读

这个例子中,我们不需要求出\(X\)的边缘分布,仅通过条件期望和重期望公式,就快速求出了\(X\)的无条件期望,这就是重期望公式的核心优势:当直接求\(E(X)\)困难时,可通过引入辅助变量\(Y\),用“条件平均再平均”的方式简化计算。


七、核心知识点总结表

分类 离散型随机变量 连续型随机变量 核心本质
条件期望定义 \(E(X|Y=y_j)=\sum_i x_i P(X=x_i|Y=y_j)\) \(E(X|Y=y)=\int_{-\infty}^{+\infty}x p(x|y)dx\) 条件分布的数学期望,固定\(Y=y\)时是确定值
随机变量形式 \(E(X|Y)\):以\(Y\)的取值为自变量的随机变量,\(Y=y_j\)时取值为\(E(X|Y=y_j)\) \(E(X|Y)\):以\(Y\)的取值为自变量的随机变量,\(Y=y\)时取值为\(E(X|Y=y)\) \(Y\)的随机性决定的随机变量
核心线性性 \(E(a_1X_1+a_2X_2|Y=y_j)=a_1E(X_1|Y=y_j)+a_2E(X_2|Y=y_j)\) \(E(a_1X_1+a_2X_2|Y=y)=a_1E(X_1|Y=y)+a_2E(X_2|Y=y)\) 继承普通期望的所有性质
重期望公式 \(E(X)=\sum_j E(X|Y=y_j)P(Y=y_j)\) \(E(X)=\int_{-\infty}^{+\infty}E(X|Y=y)p_Y(y)dy\) 整体平均 = 分组平均的加权平均
独立性简化 \(X,Y\)独立,则\(E(X|Y=y_j)=E(X)\) \(X,Y\)独立,则\(E(X|Y=y)=E(X)\) 独立时条件平均等于整体平均
可提取性 \(E(h(Y)X|Y=y_j)=h(y_j)E(X|Y=y_j)\) \(E(h(Y)X|Y=y)=h(y)E(X|Y=y)\) 给定\(Y\)时,\(Y\)的函数可视为常数提取

八、核心要点总结

  1. 条件期望的本质是缩小样本空间后的数学期望,固定\(Y=y\)时是\(y\)的确定性函数,替换为随机变量\(Y\)后,\(E(X|Y)\)是一个随机变量;
  2. 条件期望继承了普通期望的所有性质,其中线性性、可提取性、独立性简化是最常用的三个性质;
  3. 重期望公式是条件期望的核心应用,它实现了“从局部条件平均到整体无条件平均”的转换,是解决复杂期望计算的核心工具,在随机过程、机器学习、统计推断中应用极广;
  4. 二维正态分布的条件期望是线性函数,这是线性回归分析、相关性分析的核心理论基础。

重期望公式(全期望公式)经典例题 深度解析

本节4道例题均为重期望公式\(E(X) = E\left[ E(X|Y) \right]\) 的核心应用,解决的是「直接求解随机变量\(X\)的分布/期望困难,通过引入辅助随机变量\(Y\),先计算条件期望\(E(X|Y)\),再对条件期望求平均得到最终期望」的典型场景,覆盖离散递归型、连续分段型、随机和型三大类高频考点,我们逐题拆解推导逻辑与核心方法。


例3.5.7 矿工逃生问题(离散递归型期望)

题干重述

一矿工被困在有三个门的矿井里:

  • 第一个门:走3小时可到达安全区;
  • 第二个门:走5小时回到原处;
  • 第三个门:走7小时回到原处。
    矿工等概率随机选一个门,求他到达安全区的平均时间。

核心难点

直接求解困难:矿工到达安全区的时间\(X\)的可能取值为\(3, 5+3, 7+3, 5+5+3, 5+7+3,\dots\),是无穷多个取值,无法直接写出分布列计算期望,因此引入辅助变量,用重期望公式简化计算。

详细推导

步骤1:定义随机变量

  • \(X\):矿工到达安全区所需的时间(单位:小时),目标求\(E(X)\)
  • \(Y\):第一次选择的门的编号,\(Y=1,2,3\),由题意\(P(Y=1)=P(Y=2)=P(Y=3)=\frac{1}{3}\)

步骤2:计算条件期望\(E(X|Y=y)\)

条件期望的核心是「固定\(Y=y\)时,\(X\)的平均时间」,关键是递归逻辑

  1. \(Y=1\):选第一个门,3小时直接到达安全区,因此\(E(X|Y=1)=3\)
  2. \(Y=2\):选第二个门,先花费5小时回到原处,此时矿工的处境和初始状态完全一致,后续到达安全区的平均时间仍为\(E(X)\),因此总平均时间为\(E(X|Y=2)=5 + E(X)\)
  3. \(Y=3\):选第三个门,先花费7小时回到原处,同理后续平均时间仍为\(E(X)\),因此\(E(X|Y=3)=7 + E(X)\)

步骤3:代入重期望公式求解

离散型重期望公式:\(E(X) = \sum_{y} E(X|Y=y)P(Y=y)\),代入得:

\[\begin{align*} E(X) &= E(X|Y=1)P(Y=1) + E(X|Y=2)P(Y=2) + E(X|Y=3)P(Y=3) \\ &= \frac{1}{3} \times 3 + \frac{1}{3} \times [5+E(X)] + \frac{1}{3} \times [7+E(X)] \\ &= 5 + \frac{2}{3}E(X) \end{align*} \]

解一元一次方程:

\[E(X) - \frac{2}{3}E(X) = 5 \implies \frac{1}{3}E(X)=5 \implies E(X)=15 \]

最终结论

矿工平均需要15小时到达安全区。

核心方法提炼

对于带重置的递归型期望问题(选错后回到初始状态重新开始),核心是利用「回到初始状态后,后续期望与原期望相等」的逻辑,在条件期望中引入\(E(X)\),通过重期望公式得到关于\(E(X)\)的方程,直接解方程即可,无需写出无穷的分布列。


例3.5.8 摸球得分问题(离散递归型期望)

题干重述

口袋中有编号为\(1,2,\dots,n\)\(n\)个球,任取1球:

  • 取到1号球:得1分,停止摸球;
  • 取到\(i\)号球(\(i\geq2\)):得\(i\)分,将球放回,重新摸球。
    求得到的平均总分数。

核心难点

总分数\(X\)的取值是无穷多的(如\(2+1, 2+2+1, 3+1,\dots\)),直接写分布列求和困难,同样用递归+重期望公式求解。

详细推导

步骤1:定义随机变量

  • \(X\):得到的总分数,目标求\(E(X)\)
  • \(Y\):第一次取到的球的号码,\(Y=1,2,\dots,n\),由题意\(P(Y=i)=\frac{1}{n},\ i=1,2,\dots,n\)

步骤2:计算条件期望\(E(X|Y=i)\)

  1. \(Y=1\):取到1号球,得1分后直接停止,因此\(E(X|Y=1)=1\)
  2. \(Y=i\)\(i\geq2\)):取到\(i\)号球,先得\(i\)分,球放回后重新摸球,后续总分数的平均仍为\(E(X)\),因此总平均分数为\(E(X|Y=i)=i + E(X)\)

步骤3:代入重期望公式求解

离散型重期望公式:\(E(X) = \sum_{i=1}^n E(X|Y=i)P(Y=i)\),代入得:

\[\begin{align*} E(X) &= \frac{1}{n} \times 1 + \frac{1}{n} \sum_{i=2}^n \left[ i + E(X) \right] \\ &= \frac{1}{n} \left( 1 + 2 + \dots + n \right) + \frac{n-1}{n}E(X) \\ &= \frac{n+1}{2} + \frac{n-1}{n}E(X) \end{align*} \]

解一元一次方程:

\[E(X) - \frac{n-1}{n}E(X) = \frac{n+1}{2} \implies \frac{1}{n}E(X) = \frac{n+1}{2} \implies E(X) = \frac{n(n+1)}{2} \]

最终结论

得到的平均总分数为\(\frac{n(n+1)}{2}\)

核心要点

和例3.5.7属于同一类递归型问题,核心逻辑是「重置后,后续期望与原期望一致」,通过重期望公式将无穷求和转化为一元一次方程,大幅简化计算。


例3.5.9 工厂月均利润问题(连续型重期望公式)

题干重述

  • 电力公司每月供电量\(X\)服从\((10,30)\)(单位:\(10^4\ \text{kW}\))上的均匀分布,即\(X\sim U(10,30)\)
  • 工厂每月实际需电量\(Y\)服从\((10,20)\)(单位:\(10^4\ \text{kW}\))上的均匀分布,即\(Y\sim U(10,20)\)
  • 利润规则:电力足够(\(Y\leq X\))时,每\(10^4\ \text{kW}\)电创造30万元利润;电力不足(\(Y>X\))时,不足部分通过其他途径解决,每\(10^4\ \text{kW}\)仅创造10万元利润。
    求工厂每月的平均利润。

核心难点

利润\(Z\)是关于\(X,Y\)的分段函数,直接求\(Z\)的联合分布再算期望复杂,因此用重期望公式:先固定\(X=x\),求条件期望\(E(Z|X=x)\),再对\(X\)的分布求平均得到\(E(Z)\)

详细推导

步骤1:写出已知分布的密度函数

  • \(X\sim U(10,30)\),边缘密度:\(p_X(x) = \begin{cases} \displaystyle\frac{1}{20}, & 10\leq x\leq30 \\ 0, & \text{其他} \end{cases}\)
  • \(Y\sim U(10,20)\),边缘密度:\(p_Y(y) = \begin{cases} \displaystyle\frac{1}{10}, & 10\leq y\leq20 \\ 0, & \text{其他} \end{cases}\)
  • 由题意,\(X\)\(Y\)相互独立。

步骤2:写出利润\(Z\)的分段函数

根据利润规则,化简后\(Z\)的表达式为:

\[Z = \begin{cases} 30Y, & Y\leq X \quad (\text{电力足够}) \\ 10Y + 20X, & Y>X \quad (\text{电力不足}) \end{cases} \]

步骤3:计算条件期望\(E(Z|X=x)\)

固定\(X=x\)时,\(Z\)仅为\(Y\)的函数,条件期望为对\(Y\)的积分,分两种情况计算:

情况1:\(20\leq x\leq30\)

此时\(Y\)的取值范围\([10,20]\)恒满足\(Y\leq x\),因此\(Z=30Y\),条件期望为:

\[\begin{align*} E(Z|X=x) &= \int_{10}^{20} 30y \cdot \frac{1}{10} dy \\ &= 3 \times \left. \frac{y^2}{2} \right|_{10}^{20} = 450 \end{align*} \]

情况2:\(10\leq x<20\)

此时\(Y\)的取值分为\([10,x]\)\(Y\leq X\))和\([x,20]\)\(Y>X\)),分段积分:

\[\begin{align*} E(Z|X=x) &= \int_{10}^{x} 30y \cdot \frac{1}{10} dy + \int_{x}^{20} (10y+20x) \cdot \frac{1}{10} dy \\ &= 3\int_{10}^{x} y dy + \int_{x}^{20} (y + 2x) dy \\ &= \frac{3}{2}(x^2 - 100) + \left( 200 + 40x \right) - \left( \frac{x^2}{2} + 2x^2 \right) \\ &= 50 + 40x - x^2 \end{align*} \]

综上,条件期望为:

\[E(Z|X=x) = \begin{cases} 50 + 40x - x^2, & 10\leq x<20 \\ 450, & 20\leq x\leq30 \end{cases} \]

步骤4:代入连续型重期望公式求\(E(Z)\)

连续型重期望公式:\(E(Z) = \int_{-\infty}^{+\infty} E(Z|X=x) p_X(x) dx\),代入分段积分:

\[\begin{align*} E(Z) &= \frac{1}{20}\int_{10}^{20} (50 + 40x - x^2) dx + \frac{1}{20}\int_{20}^{30} 450 dx \\ &= \frac{1}{20} \times \left. \left( 50x + 20x^2 - \frac{x^3}{3} \right) \right|_{10}^{20} + 225 \\ &= \frac{625}{3} + 225 \approx 433 \end{align*} \]

最终结论

该厂每月的平均利润约为433万元。

核心方法提炼

对于二维随机变量的分段函数期望,核心是用重期望公式「先固定一个变量,求另一个变量的条件期望,再对固定的变量求平均」,将二重积分转化为两次单积分,大幅简化分段函数的计算复杂度。


例3.5.10 随机个随机变量和的数学期望(瓦尔德等式)

定理表述

\(X_1,X_2,\dots\)为一列独立同分布的随机变量,随机变量\(N\)只取正整数值,且\(N\)\(\{X_n\}\)相互独立,则:

\[\boldsymbol{E\left( \sum_{i=1}^N X_i \right) = E(X_1) \cdot E(N)} \]

该结论是概率论中经典的瓦尔德等式(Wald's Identity) 基础形式,是随机过程、保险精算、排队论的核心公式。

严格证明

利用离散型重期望公式,将\(N\)作为辅助变量,固定\(N=n\)计算条件期望:

  1. 重期望公式展开:

\[E\left( \sum_{i=1}^N X_i \right) = E\left[ E\left( \sum_{i=1}^N X_i \bigg| N \right) \right] = \sum_{n=1}^\infty E\left( \sum_{i=1}^N X_i \bigg| N=n \right) P(N=n) \]

  1. 计算条件期望:
    \(N=n\)时,求和上限固定为\(n\),且\(N\)\(X_i\)独立,结合期望的线性性与\(X_i\)同分布的性质,得:

\[E\left( \sum_{i=1}^N X_i \bigg| N=n \right) = E\left( \sum_{i=1}^n X_i \right) = \sum_{i=1}^n E(X_i) = n E(X_1) \]

  1. 代入求和化简:

\[\begin{align*} E\left( \sum_{i=1}^N X_i \right) &= \sum_{n=1}^\infty n E(X_1) P(N=n) \\ &= E(X_1) \sum_{n=1}^\infty n P(N=n) \\ &= E(X_1) \cdot E(N) \end{align*} \]

定理得证。

应用实例解析

实例1:商场日均营业额

  • 一天内到达商场的顾客数\(N\)\(E(N)=35000\)
  • \(i\)个顾客的购物金额\(X_i\),独立同分布,\(E(X_i)=82\)元;
  • \(N\)\(X_i\)独立。

由瓦尔德等式,商场一天的平均营业额为:

\[E\left( \sum_{i=1}^N X_i \right) = E(X_1)E(N) = 82 \times 35000 = 287\ \text{万元} \]

实例2:昆虫产卵成活数

  • 昆虫一次产卵数\(N\sim P(\lambda)\)(泊松分布),\(E(N)=\lambda\)
  • 每个卵成活的概率为\(p\)\(X_i\)服从0-1分布,\(E(X_i)=p\)
  • \(N\)\(X_i\)独立。

由瓦尔德等式,平均成活卵数为:

\[E\left( \sum_{i=1}^N X_i \right) = E(X_1)E(N) = \lambda p \]

该结论也验证了泊松分布的稀疏性,与之前的结论一致。

核心意义

瓦尔德等式解决了随机个随机变量和的期望计算问题,无需知道\(N\)\(X_i\)的具体分布,仅需知道各自的期望和独立性条件,即可直接计算和的期望,在保险精算(理赔总额)、排队论(总服务时间)、金融(随机期数的收益和)等领域有极广泛的应用。


四、例题核心方法总结表

例题编号 问题类型 核心难点 辅助变量选择 核心公式 关键逻辑
3.5.7 离散递归型期望 \(X\)有无穷多取值,直接求和困难 第一次选择的门\(Y\) 离散重期望公式 重置后后续期望=原期望,构造关于\(E(X)\)的方程
3.5.8 离散递归型期望 \(X\)有无穷多取值,直接求和困难 第一次取到的球号\(Y\) 离散重期望公式 重置后后续期望=原期望,构造关于\(E(X)\)的方程
3.5.9 连续分段函数期望 二维分段函数二重积分复杂 供电量\(X\) 连续重期望公式 先固定\(X=x\)求条件期望,再对\(X\)积分,拆分二重积分
3.5.10 随机个随机变量和的期望 求和上限是随机变量,直接计算困难 随机项数\(N\) 重期望公式+期望线性性 固定\(N=n\)简化条件期望,得到瓦尔德等式

五、核心通用结论

重期望公式的核心价值,是将复杂的期望计算,拆解为「条件化→求条件期望→对条件期望求平均」的三步流程,无论是离散递归、连续分段,还是随机和问题,都可以通过这个框架大幅简化计算,是概率论中解决复杂期望问题的核心工具。


条件方差与全方差公式 深度讲解与完整推导

一、条件方差的定义与核心本质

条件方差是条件分布的二阶数字特征,与条件期望对应,刻画了给定随机变量\(Y\)的取值时,另一个随机变量\(X\)在缩小样本空间内的波动程度

定义3.5.5 条件方差

条件分布的方差(若存在)称为条件方差,分离散型与连续型两种形式定义:

1. 给定\(Y=y\)\(X\)的条件方差

\[\boldsymbol{\text{Var}(X|Y=y)} = \begin{cases} \displaystyle\sum_{i} \left(x_i - E(X|Y=y)\right)^2 P(X=x_i|Y=y), & (X,Y)\text{为二维离散型随机变量} \\ \\ \displaystyle\int_{-\infty}^{+\infty} \left(x - E(X|Y=y)\right)^2 p(x|y) dx, & (X,Y)\text{为二维连续型随机变量} \end{cases} \]

2. 给定\(X=x\)\(Y\)的条件方差

\[\boldsymbol{\text{Var}(Y|X=x)} = \begin{cases} \displaystyle\sum_{j} \left(y_j - E(Y|X=x)\right)^2 P(Y=y_j|X=x), & (X,Y)\text{为二维离散型随机变量} \\ \\ \displaystyle\int_{-\infty}^{+\infty} \left(y - E(Y|X=x)\right)^2 p(y|x) dy, & (X,Y)\text{为二维连续型随机变量} \end{cases} \]

核心解读

  1. 本质对应:普通方差\(\text{Var}(X)=E\left[(X-E(X))^2\right]\)\(X\)在全样本空间关于无条件期望的偏离平方的期望;而条件方差是在给定\(Y=y\)的条件下,\(X\)关于其条件期望\(E(X|Y=y)\)的偏离平方的条件期望,即\(\text{Var}(X|Y=y)=E\left[(X-E(X|Y=y))^2 \mid Y=y\right]\)
  2. 函数属性\(\text{Var}(X|Y=y)\)是关于\(y\)的确定性函数,\(y\)取不同值时,\(X\)的条件波动程度不同;将\(y\)替换为随机变量\(Y\),得到随机变量\(\text{Var}(X|Y)\),它的随机性由\(Y\)决定,是后续全方差公式的核心要素。
  3. 基本性质
    • 非负性:\(\text{Var}(X|Y=y) \geq 0\),方差刻画波动,恒非负;
    • 常数的条件方差:对任意常数\(c\)\(\text{Var}(c|Y=y)=0\)
    • 线性变换:\(\text{Var}(aX+b|Y=y)=a^2\text{Var}(X|Y=y)\)\(a,b\)为常数);
    • 独立性简化:若\(X\)\(Y\)独立,则\(\text{Var}(X|Y=y)=\text{Var}(X)\)(独立时条件分布=无条件分布,条件波动=整体波动)。

二、核心定理:全方差公式(方差分解公式)

全方差公式是与重期望公式对应的核心定理,实现了随机变量总方差的分解,是概率论、回归分析、随机过程的关键工具。

定理3.5.2 全方差公式

\((X,Y)\)是二维随机变量,且\(\text{Var}(X)\)存在,则:

\[\boldsymbol{\text{Var}(X) = E\left[\text{Var}(X|Y)\right] + \text{Var}\left[E(X|Y)\right]} \]

直观通俗解读

这个公式将\(X\)总方差分解为两部分之和,我们用「学生成绩」的例子做类比,一眼就能理解:

  • \(X\)为全校学生的数学成绩,\(Y\)为学生所在的班级:
    1. 第一部分\(E\left[\text{Var}(X|Y)\right]\):组内方差的平均值
      先按班级分组,计算每个班级内部学生成绩的方差(条件方差\(\text{Var}(X|Y=y)\)),再按班级人数占比对所有班级的方差求平均。这部分刻画的是班级内部学生成绩的随机波动,是即使知道了班级,也无法消除的个体差异带来的方差,也叫「不可解释方差」。
    2. 第二部分\(\text{Var}\left[E(X|Y)\right]\):组间均值的方差
      先按班级分组,计算每个班级的平均成绩(条件期望\(E(X|Y=y)\)),再计算这些班级平均分的方差。这部分刻画的是不同班级之间的成绩差异,是由班级这个因素可以解释的方差,也叫「可解释方差」。

总方差 = 组内平均波动 + 组间均值差异,这就是全方差公式的核心内涵。


三、全方差公式的严格证明

教材仅证明了连续型场景,这里我们补全连续型完整推导(含交叉项为零的细节),并补充离散型场景的证明,实现全场景覆盖。

1. 连续型随机变量的证明

设二维连续型随机变量\((X,Y)\)的联合密度为\(p(x,y)\),边缘密度为\(p_Y(y)\),条件密度为\(p(x|y)\),记\(g(y)=E(X|Y=y)\),则\(g(Y)=E(X|Y)\)

步骤1:从方差的原始定义出发

方差的定义为\(\text{Var}(X)=E\left[(X-E(X))^2\right]\),展开为二重积分:

\[\text{Var}(X) = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} \left(x - E(X)\right)^2 p(x,y) dxdy \]

步骤2:拆分联合密度,交换积分次序

由乘法公式\(p(x,y)=p(x|y)p_Y(y)\),代入后交换积分次序(先对\(x\)积分,再对\(y\)积分):

\[\text{Var}(X) = \int_{-\infty}^{+\infty} \left[ \int_{-\infty}^{+\infty} \left(x - E(X)\right)^2 p(x|y) dx \right] p_Y(y) dy \]

步骤3:核心技巧——加减项拆分

为了关联条件期望与条件方差,我们对被减项做拆分(加一个\(E(X|Y=y)\)再减一个\(E(X|Y=y)\),等式不变):

\[x - E(X) = \underbrace{\left(x - E(X|Y=y)\right)}_{a} + \underbrace{\left(E(X|Y=y) - E(X)\right)}_{b} \]

将平方展开:\((a+b)^2 = a^2 + 2ab + b^2\),代入积分后拆分为三项:

\[\text{Var}(X) = \underbrace{\int_{-\infty}^{+\infty} \left[ \int_{-\infty}^{+\infty} a^2 p(x|y) dx \right] p_Y(y) dy}_{第一项} + \underbrace{\int_{-\infty}^{+\infty} \left[ \int_{-\infty}^{+\infty} 2ab p(x|y) dx \right] p_Y(y) dy}_{第二项(交叉项)} + \underbrace{\int_{-\infty}^{+\infty} \left[ \int_{-\infty}^{+\infty} b^2 p(x|y) dx \right] p_Y(y) dy}_{第三项} \]

步骤4:分别化简三项

第一项化简为\(E\left[\text{Var}(X|Y)\right]\)

\(a^2 = \left(x - E(X|Y=y)\right)^2\),内层积分正是条件方差的定义:

\[\int_{-\infty}^{+\infty} \left(x - E(X|Y=y)\right)^2 p(x|y) dx = \text{Var}(X|Y=y) \]

因此第一项为:

\[\int_{-\infty}^{+\infty} \text{Var}(X|Y=y) p_Y(y) dy = E\left[\text{Var}(X|Y)\right] \]

第三项化简为\(\text{Var}\left[E(X|Y)\right]\)

\(b^2 = \left(E(X|Y=y) - E(X)\right)^2\),与积分变量\(x\)无关,可提到内层积分外;而条件密度满足规范性\(\int_{-\infty}^{+\infty}p(x|y)dx=1\),因此内层积分结果为1:

\[\int_{-\infty}^{+\infty} \left(E(X|Y=y) - E(X)\right)^2 p(x|y) dx = \left(E(X|Y=y) - E(X)\right)^2 \]

因此第三项为:

\[\int_{-\infty}^{+\infty} \left(E(X|Y=y) - E(X)\right)^2 p_Y(y) dy \]

根据方差的定义,随机变量\(Z=E(X|Y)\)的方差为\(\text{Var}(Z)=E\left[(Z-E(Z))^2\right]\),结合重期望公式\(E\left[E(X|Y)\right]=E(X)\),上式正是\(\text{Var}\left[E(X|Y)\right]\)

第二项(交叉项)证明为0

交叉项的核心是内层积分等于0,我们展开推导:

\[\text{交叉项} = 2\int_{-\infty}^{+\infty} \left(E(X|Y=y) - E(X)\right) \cdot \underbrace{\left[ \int_{-\infty}^{+\infty} \left(x - E(X|Y=y)\right) p(x|y) dx \right]}_{内层积分} p_Y(y) dy \]

单独处理内层积分,拆分后用条件期望的定义化简:

\[\int_{-\infty}^{+\infty} \left(x - E(X|Y=y)\right) p(x|y) dx = \int_{-\infty}^{+\infty}x p(x|y)dx - E(X|Y=y)\int_{-\infty}^{+\infty}p(x|y)dx \]

其中\(\int_{-\infty}^{+\infty}x p(x|y)dx = E(X|Y=y)\)\(\int_{-\infty}^{+\infty}p(x|y)dx=1\),因此:

\[\int_{-\infty}^{+\infty} \left(x - E(X|Y=y)\right) p(x|y) dx = E(X|Y=y) - E(X|Y=y) \cdot 1 = 0 \]

内层积分为0,因此整个交叉项恒为0。

步骤5:合并结果

三项合并后,交叉项为0,最终得到:

\[\text{Var}(X) = E\left[\text{Var}(X|Y)\right] + \text{Var}\left[E(X|Y)\right] \]

连续型场景得证。


2. 离散型随机变量的证明

设二维离散型随机变量\((X,Y)\)的联合分布列为\(P(X=x_i,Y=y_j)\),边缘分布列为\(P(Y=y_j)\),条件分布列为\(P(X=x_i|Y=y_j)\)

步骤1:方差定义与全概率公式展开

\[\text{Var}(X) = \sum_{i} \left(x_i - E(X)\right)^2 P(X=x_i) \]

由离散型全概率公式\(P(X=x_i)=\sum_{j}P(X=x_i|Y=y_j)P(Y=y_j)\),代入后交换求和次序:

\[\text{Var}(X) = \sum_{j} \left[ \sum_{i} \left(x_i - E(X)\right)^2 P(X=x_i|Y=y_j) \right] P(Y=y_j) \]

步骤2:加减项拆分与三项化简

同样做拆分\(x_i - E(X) = \left(x_i - E(X|Y=y_j)\right) + \left(E(X|Y=y_j) - E(X)\right)\),平方展开后拆分为三项:

  1. 第一项:\(\sum_{j} \text{Var}(X|Y=y_j) P(Y=y_j) = E\left[\text{Var}(X|Y)\right]\)
  2. 交叉项:内层求和\(\sum_{i} \left(x_i - E(X|Y=y_j)\right)P(X=x_i|Y=y_j) = E(X|Y=y_j)-E(X|Y=y_j)=0\),因此交叉项为0
  3. 第三项:\(\sum_{j} \left(E(X|Y=y_j) - E(X)\right)^2 P(Y=y_j) = \text{Var}\left[E(X|Y)\right]\)

合并后得到全方差公式,离散型场景得证。


四、公式验证与典型应用

1. 二维正态分布的验证

\((X,Y)\)服从二维正态分布\(N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\),由之前的结论:

  • 条件期望:\(E(X|Y=y) = \mu_1 + \rho\frac{\sigma_1}{\sigma_2}(y-\mu_2)\),因此\(\text{Var}\left[E(X|Y)\right] = \left(\rho\frac{\sigma_1}{\sigma_2}\right)^2 \text{Var}(Y) = \rho^2\sigma_1^2\)
  • 条件方差:\(\text{Var}(X|Y=y) = \sigma_1^2(1-\rho^2)\),因此\(E\left[\text{Var}(X|Y)\right] = \sigma_1^2(1-\rho^2)\)

两部分相加:

\[E\left[\text{Var}(X|Y)\right] + \text{Var}\left[E(X|Y)\right] = \sigma_1^2(1-\rho^2) + \rho^2\sigma_1^2 = \sigma_1^2 = \text{Var}(X) \]

完美符合全方差公式,验证了定理的正确性。

2. 核心应用场景

  1. 回归分析:线性回归中,拟合优度\(R^2\)的本质是「可解释方差/总方差」,即\(R^2 = \frac{\text{Var}\left[E(X|Y)\right]}{\text{Var}(X)}\)\(R^2\)越接近1,说明\(Y\)\(X\)的解释能力越强。
  2. 随机过程:在马尔可夫过程、鞅论中,全方差公式是计算过程波动、推导收敛性的核心工具。
  3. 分层抽样:抽样调查中,用全方差公式拆分层内方差和层间方差,优化抽样方案,降低抽样误差。
  4. 贝叶斯统计:用于计算后验分布的方差,拆分先验信息和样本信息对后验波动的贡献。

五、核心知识点总结表

概念 定义/公式 核心本质 关键性质
条件方差\(\text{Var}(X|Y=y)\) 离散型:\(\sum_i (x_i-E(X|Y=y))^2 P(X=x_i|Y=y)\)
连续型:\(\int_{-\infty}^{+\infty} (x-E(X|Y=y))^2 p(x|y)dx\)
给定\(Y=y\)时,\(X\)在条件分布下的波动程度 非负性、线性变换性质、独立时等于无条件方差
随机条件方差\(\text{Var}(X|Y)\) \(Y\)为自变量的随机变量,\(Y=y\)时取值为\(\text{Var}(X|Y=y)\) \(Y\)的随机性决定的随机波动函数 非负随机变量,可求期望、方差
重期望公式 \(E(X) = E\left[E(X|Y)\right]\) 整体平均 = 分组平均的加权平均 无条件期望=条件期望的期望
全方差公式 \(\text{Var}(X) = E\left[\text{Var}(X|Y)\right] + \text{Var}\left[E(X|Y)\right]\) 总方差 = 组内平均波动 + 组间均值差异 方差的可加分解,交叉项恒为0

posted on 2026-04-20 11:16  Indian_Mysore  阅读(103)  评论(0)    收藏  举报

导航