1.2常见的离散型分布
单点分布(退化分布)详细讲解与推导证明
各位同学,今天我们来系统讲解概率论中最基础、也最核心的离散型分布——单点分布(退化分布)。我始终强调:要学好复杂的概率分布,必须先把单点分布吃透——它是确定性常量与随机变量之间的桥梁,是整个概率论公理化体系的基石之一,所有随机变量的定义、数字特征的计算,本质上都可以追溯到单点分布的性质。
一、基础定义与核心概念澄清
1. 严格定义
设\((\Omega, \mathcal{F}, P)\)为概率空间,\(X\)是定义在该空间上的随机变量。若存在实常数\(a \in \mathbb{R}\),使得
则称随机变量\(X\)服从参数为\(a\)的单点分布,也叫退化分布,常用记号为\(X \sim \delta(a)\)或\(X \sim \text{Deg}(a)\)。
2. 概念澄清
- 为什么叫“退化”?普通随机变量的核心是“随机性”,即取值有多种可能、存在波动;而单点分布的随机变量,随机性完全消失,几乎必然取固定值\(a\),相当于从“随机变量”退化为“确定性常量”,因此称为退化分布。
- 离散型分布的“密度函数”说明:教材中提到的“密度函数”,对离散型随机变量而言,严格名称是概率质量函数(PMF);只有连续型随机变量才有概率密度函数(PDF),二者不可混淆,后续我们统一使用严格术语。
- 几乎必然相等的细节:\(P(X=a)=1\),不代表\(X\)绝对不能取其他值,仅代表\(X\)取非\(a\)值的事件是零概率事件(概率为0),而非不可能事件。零概率事件≠不可能事件,这是概率论测度论基础的核心细节,初学者务必注意。
二、概率质量函数(PMF)与分布函数(CDF)推导
1. 概率质量函数(PMF)推导
离散型随机变量的PMF定义为:对任意实数\(x\),\(p(x) = P(X=x)\),需满足非负性\(p(x) \geq 0\)、规范性\(\sum\limits_{x \in \mathbb{R}} p(x) = 1\)。
对于单点分布,\(X\)的支撑集(所有可能取值的集合)仅为单点\(\{a\}\),因此分两种情况:
- 当\(x = a\)时,\(p(a) = P(X=a) = 1\);
- 当\(x \neq a\)时,\(p(x) = P(X=x) = 0\)。
因此单点分布的PMF为:
显然满足非负性与规范性,是合法的概率质量函数。
2. 分布函数(CDF)推导与合法性证明
(1)分布函数的通用定义
对任意实数\(x\),随机变量\(X\)的分布函数定义为:
所有分布函数必须满足三条基本性质:单调不减性、右连续性、极限规范性(\(\lim\limits_{x \to -\infty}F(x)=0\),\(\lim\limits_{x \to +\infty}F(x)=1\))。
(2)单点分布CDF的分情况推导
我们基于定义,分两种情况讨论\(F(x)\)的取值:
-
当\(x < a\)时:
事件\(\{X \leq x\}\)表示“\(X\)的取值小于等于\(x\)”,但\(X\)仅能以概率1取\(a\),而\(a > x\),因此\(\{X \leq x\}\)是不可能事件,不可能事件的概率为0,因此:\[F(x) = P(X \leq x) = 0, \quad x < a \] -
当\(x \geq a\)时:
事件\(\{X \leq x\}\)包含了\(\{X=a\}\),即\(\{X=a\} \subset \{X \leq x\}\),根据概率的单调性:\[P(X \leq x) \geq P(X=a) = 1 \]而概率的取值范围最大为1,因此\(P(X \leq x) = 1\),即:
\[F(x) = 1, \quad x \geq a \]
(3)指示函数表示
为了简化表达,我们引入指示函数\(I\{A\}\):对于命题\(A\),
因此单点分布的分布函数可以简洁表示为:
这就是教材中给出的表达式的完整推导过程。
(4)分布函数的合法性证明
我们验证该函数满足分布函数的三条核心性质:
-
单调不减性:对任意\(x_1 < x_2\),
- 若\(x_2 < a\):\(F(x_1)=0, F(x_2)=0\),满足\(F(x_1) \leq F(x_2)\);
- 若\(x_1 < a \leq x_2\):\(F(x_1)=0, F(x_2)=1\),满足\(F(x_1) \leq F(x_2)\);
- 若\(a \leq x_1 < x_2\):\(F(x_1)=1, F(x_2)=1\),满足\(F(x_1) \leq F(x_2)\)。
因此对所有\(x_1 < x_2\),单调不减性成立。
-
右连续性:对任意\(x_0 \in \mathbb{R}\),\(\lim\limits_{x \to x_0^+} F(x) = F(x_0)\),
- 若\(x_0 < a\):\(x \to x_0^+\)时\(x < a\)仍成立,\(F(x)=0=F(x_0)\),右连续;
- 若\(x_0 = a\):\(x \to a^+\)时\(x \geq a\),\(F(x)=1=F(a)\),右连续;
- 若\(x_0 > a\):\(x \to x_0^+\)时\(x > a\),\(F(x)=1=F(x_0)\),右连续。
因此对所有\(x_0\),右连续性成立。
-
极限规范性:
- 当\(x \to -\infty\)时,\(x < a\)恒成立,\(\lim\limits_{x \to -\infty}F(x) = 0\);
- 当\(x \to +\infty\)时,\(x \geq a\)恒成立,\(\lim\limits_{x \to +\infty}F(x) = 1\)。
极限规范性成立。
综上,\(F(x)=I\{x \geq a\}\)是完全合法的分布函数。
三、单点分布的数字特征完整推导
离散型随机变量的数字特征,本质上是随机变量函数的期望,核心定义为:若\(X\)的PMF为\(p(x)\),则对可测函数\(g(X)\),其期望为\(E[g(X)] = \sum\limits_{x \in \mathbb{R}} g(x) p(x)\),要求级数绝对收敛。
我们基于该定义,完整推导单点分布的所有核心数字特征(参数为\(a\)):
1. 数学期望(一阶原点矩)
数学期望是随机变量取值的加权平均,权重为对应概率:
结论:单点分布的期望等于其参数\(a\),符合直觉——几乎为常数的随机变量,均值就是常数本身。
2. 方差(二阶中心矩)
方差衡量随机变量取值的波动程度,定义为\(D(X) = E\left[X - E(X)\right]^2\),常用计算公式为\(D(X) = E(X^2) - [E(X)]^2\)。
第一步先计算二阶原点矩\(E(X^2)\):
第二步代入方差公式:
核心结论:单点分布的方差为0。这是“退化”的核心体现——随机变量取值无任何波动,随机性完全消失。
这里补充一个概率论核心定理:随机变量\(X\)的方差\(D(X)=0\)的充要条件是\(X\)服从单点分布,即存在常数\(a\),使得\(P(X=a)=1\)。该定理建立了方差为0与确定性常量的等价关系,是大数定律的理论基础。
3. 各阶矩的通用结论
- k阶原点矩(\(k=1,2,3,\dots\)):\[E(X^k) = \sum\limits_{x \in \mathbb{R}} x^k \cdot p(x) = a^k \cdot 1 = a^k \]
- k阶中心矩(\(k \geq 1\)):\[E\left[X - E(X)\right]^k = E\left[X - a\right]^k = (a - a)^k \cdot 1 = 0 \]
结论:单点分布的所有中心矩均为0,进一步说明其取值与均值无任何偏差。
4. 特征函数
特征函数是概率论中研究分布的核心工具,定义为\(\varphi(t) = E\left(e^{itX}\right)\),其中\(i\)为虚数单位,\(t \in \mathbb{R}\)。
代入单点分布的PMF:
结论:单点分布的特征函数为\(e^{ita}\),这也是确定性常量的特征函数,是后续分布分解、极限定理研究的基础。
四、单点分布的核心性质与应用场景
1. 核心性质
- 确定性等价性:服从单点分布的随机变量\(X\),与常数\(a\)几乎必然相等,二者的分布、所有数字特征、概率性质完全一致。这一性质将确定性常量纳入了随机变量的研究框架,是概率论的基础桥梁。
- 全域独立性:若\(X \sim \delta(a)\),则\(X\)与任意随机变量\(Y\)相互独立。
证明:对任意实数\(x,y\),需证\(P(X \leq x, Y \leq y) = P(X \leq x)P(Y \leq y)\)。- 若\(x < a\):\(P(X \leq x)=0\),左边\(P(X \leq x,Y \leq y) \leq P(X \leq x)=0\),因此左边=0=右边,成立;
- 若\(x \geq a\):\(P(X \leq x)=1\),左边\(P(X \leq x,Y \leq y)=P(Y \leq y)\),右边=1·\(P(Y \leq y)\),相等,成立。
该性质是“常数与任意随机变量独立”这一常用结论的严格证明。
- 分布可分解性:任何离散型随机变量,都可以表示为有限/可数个单点分布的线性组合;任何随机变量,都可以用单点分布的加权和(简单函数)逼近,这是概率论中定义期望(勒贝格积分)的核心基础。
2. 典型应用场景
- 理论基础:公理化概率论中,单点分布构造的简单随机变量,是定义随机变量积分、期望的基础,相当于黎曼积分中的阶梯函数。
- 统计建模:贝叶斯统计中,单点先验分布对应频率派“参数是固定常量”的核心观点,是连接频率派与贝叶斯派的关键特例。
- 极限理论:大数定律、中心极限定理中,随机变量序列收敛到常数,本质上就是收敛到单点分布,是极限定理的核心研究对象。
- 随机过程:常数过程是每一个时刻都服从单点分布的随机过程,是最简单的平稳过程、马尔可夫过程,是复杂随机过程研究的基准模型。
五、单点分布核心信息归纳总结表
| 项目 | 核心内容 | 备注与说明 |
|---|---|---|
| 分布全称 | 单点分布 | 无任何随机性的离散型分布 |
| 常用别名 | 退化分布、确定性分布 | 因随机性退化消失得名 |
| 分布记号 | \(X \sim \delta(a)\)、\(X \sim \text{Deg}(a)\) | \(a\)为分布的唯一参数,可取任意实数 |
| 支撑集 | \(\{a\}\) | 仅存在一个可能的取值点 |
| 概率质量函数(PMF) | \(p(x)=\begin{cases}1, & x=a \\ 0, & x \neq a\end{cases}\) | 满足非负性、规范性 |
| 分布函数(CDF) | \(F(x)=I\{x \geq a\}=\begin{cases}0, & x < a \\ 1, & x \geq a\end{cases}\) | 满足分布函数三条基本性质 |
| 数学期望\(E(X)\) | \(a\) | 等于分布的参数本身 |
| 方差\(D(X)\) | \(0\) | 无任何取值波动,是方差为0的充要条件 |
| \(k\)阶原点矩\(E(X^k)\) | \(a^k\)(\(k=1,2,3,\dots\)) | 为参数的\(k\)次幂 |
| \(k\)阶中心矩\(E[X-E(X)]^k\) | \(0\)(\(k \geq 1\)) | 所有中心矩均为0 |
| 特征函数\(\varphi(t)\) | \(e^{ita}\)(\(t \in \mathbb{R}\)) | 与确定性常量的特征函数一致 |
| 核心性质 | 1. 与常数\(a\)几乎必然等价;2. 与任意随机变量独立;3. 可构造所有简单随机变量 | 是确定性与随机性的桥梁 |
| 典型应用 | 概率论公理化基础、贝叶斯先验、极限定理、随机过程基准模型 | 贯穿整个概率论与数理统计体系 |
离散均匀分布详细讲解与严格推导证明
各位同学,今天我们讲解离散型分布中最具代表性的等概率分布——离散均匀分布。它是古典概型的数学抽象,是整个概率论入门的核心分布,也是后续所有离散型分布的基础参照,我们将延续上一节单点分布的讲解逻辑,从定义到推导、从性质到应用,完整拆解这个分布的全部核心内容。
一、基础定义与核心概念澄清
1. 严格公理化定义
设\((\Omega, \mathcal{F}, P)\)为概率空间,\(X\)是定义在该空间上的随机变量。若存在正整数\(m \geq 1\),使得\(X\)的支撑集(所有可能取值的集合)为有限正整数集\(\{1,2,\dots,m\}\),且对任意\(i=1,2,\dots,m\),满足
则称随机变量\(X\)服从参数为\(m\)的离散均匀分布,常用记号为\(X \sim U(m)\),也可称为离散矩形分布、有限等可能分布。
2. 关键概念澄清
- 术语纠正:教材中提到的“密度函数”,对离散型随机变量而言,严格名称为概率质量函数(PMF);只有连续型随机变量才有概率密度函数(PDF),二者物理意义完全不同,后续我们统一使用严格的学术术语。
- 核心本质:离散均匀分布的核心是等可能性,它是古典概型“有限样本空间、每个基本事件等概率发生”的直接数学建模,教材中“从\(m\)个带标号的球中任取1个”,就是该分布最经典的现实对应。
- 参数意义:唯一参数\(m\)是支撑集的元素个数,即试验的总可能结果数,要求\(m\)为正整数;当\(m=1\)时,离散均匀分布\(U(1)\)直接退化为上一节讲解的单点分布\(\delta(1)\),二者完全兼容,形成了完整的理论衔接。
- 取值约束:该分布的取值必须是\(1\)到\(m\)的正整数,这是教材给出的标准形式;广义的离散均匀分布可定义在任意有限实数集上,只需保证每个取值的概率相等,标准形式是最常用、最便于计算的版本。
二、概率质量函数(PMF)与分布函数(CDF)推导及合法性证明
1. 概率质量函数(PMF)推导与合法性验证
离散型随机变量的PMF定义为:对任意实数\(x\),\(p(x) = P(X=x)\),合法的PMF必须满足非负性\(p(x) \geq 0\)、规范性\(\sum\limits_{x \in \mathbb{R}} p(x) = 1\)。
(1)PMF的分情况表达
对于离散均匀分布\(U(m)\),分两种情况讨论:
- 当\(x\)是\(1 \leq x \leq m\)的正整数时,\(p(x) = P(X=x) = \frac{1}{m}\);
- 当\(x\)不满足上述条件时,\(p(x) = P(X=x) = 0\)。
引入指示函数\(I\{A\}\)(命题\(A\)为真时取1,为假时取0),可将PMF简洁表示为教材中的形式:
(2)合法性验证
- 非负性:对任意实数\(x\),\(\frac{1}{m} > 0\),其余情况\(p(x)=0\),因此\(p(x) \geq 0\)恒成立,满足非负性;
- 规范性:对所有实数\(x\)求和,仅\(x=1,2,\dots,m\)时有非零值,因此\[\sum\limits_{x \in \mathbb{R}} p(x) = \sum\limits_{i=1}^m \frac{1}{m} = m \cdot \frac{1}{m} = 1 \]完全满足规范性,是合法的概率质量函数。
2. 分布函数(CDF)推导与合法性证明
(1)分布函数的通用定义
对任意实数\(x\),随机变量\(X\)的分布函数定义为:
合法的分布函数必须满足三条核心性质:单调不减性、右连续性、极限规范性(\(\lim\limits_{x \to -\infty}F(x)=0\),\(\lim\limits_{x \to +\infty}F(x)=1\))。
(2)离散均匀分布CDF的分情况推导
我们基于定义,结合\(X\)仅取正整数的特性,分三类区间完整推导:
-
当\(x < 1\)时:
事件\(\{X \leq x\}\)表示“\(X\)的取值小于等于\(x\)”,但\(X\)的最小取值为1,因此该事件是不可能事件,不可能事件的概率为0,即:\[F(x) = P(X \leq x) = 0, \quad x < 1 \] -
当\(k \leq x < k+1\)(\(k\)为\(1 \leq k \leq m-1\)的正整数)时:
由于\(X\)仅取正整数,事件\(\{X \leq x\}\)等价于\(\{X=1,2,\dots,k\}\),这\(k\)个事件两两互斥,根据概率的有限可加性:\[F(x) = P(X \leq x) = \sum\limits_{i=1}^k P(X=i) = k \cdot \frac{1}{m} = \frac{k}{m}, \quad k \leq x < k+1 \] -
当\(x \geq m\)时:
事件\(\{X \leq x\}\)包含了\(X\)的所有可能取值,是必然事件,必然事件的概率为1,即:\[F(x) = P(X \leq x) = 1, \quad x \geq m \]
结合向下取整函数\(\lfloor x \rfloor\)(不超过\(x\)的最大整数),可将CDF统一表示为:
(3)分布函数的合法性证明
我们严格验证该函数满足分布函数的三条核心性质:
-
单调不减性:对任意\(x_1 < x_2\),
- 若\(x_2 < 1\):\(F(x_1)=0, F(x_2)=0\),满足\(F(x_1) \leq F(x_2)\);
- 若\(x_1 < 1 \leq x_2 < m\):\(F(x_1)=0\),\(F(x_2)=\frac{\lfloor x_2 \rfloor}{m} \geq 0\),满足单调性;
- 若\(1 \leq x_1 < x_2 < m\):\(\lfloor x_1 \rfloor \leq \lfloor x_2 \rfloor\),因此\(\frac{\lfloor x_1 \rfloor}{m} \leq \frac{\lfloor x_2 \rfloor}{m}\),满足单调性;
- 若\(x_1 < m \leq x_2\):\(F(x_1) \leq 1 = F(x_2)\),满足单调性;
- 若\(x_1 \geq m\):\(F(x_1)=1, F(x_2)=1\),满足单调性。
因此对所有\(x_1 < x_2\),单调不减性成立。
-
右连续性:对任意\(x_0 \in \mathbb{R}\),需证\(\lim\limits_{x \to x_0^+} F(x) = F(x_0)\),
- 若\(x_0 < 1\):\(x \to x_0^+\)时\(x < 1\)仍成立,\(F(x)=0=F(x_0)\),右连续;
- 若\(1 \leq x_0 < m\):\(x \to x_0^+\)时,\(\lfloor x \rfloor = \lfloor x_0 \rfloor\),因此\(F(x)=\frac{\lfloor x_0 \rfloor}{m}=F(x_0)\),右连续;
- 若\(x_0 \geq m\):\(x \to x_0^+\)时\(x \geq m\),\(F(x)=1=F(x_0)\),右连续。
因此对所有\(x_0\),右连续性成立。
-
极限规范性:
- 当\(x \to -\infty\)时,\(x < 1\)恒成立,\(\lim\limits_{x \to -\infty}F(x) = 0\);
- 当\(x \to +\infty\)时,\(x \geq m\)恒成立,\(\lim\limits_{x \to +\infty}F(x) = 1\)。
极限规范性完全成立。
综上,该函数是合法的分布函数,其图像为阶梯函数,在\(x=1,2,\dots,m\)处存在跳跃,每个跳跃点的跳跃高度均为\(\frac{1}{m}\)。
三、核心数字特征的严格推导
离散型随机变量的数字特征,核心定义为:若\(X\)的PMF为\(p(x)\),则对可测函数\(g(X)\),其期望为\(E[g(X)] = \sum\limits_{x \in \mathbb{R}} g(x) p(x)\),要求级数绝对收敛。
我们基于该定义,完整推导离散均匀分布的核心数字特征,重点讲解教材给出的期望与方差公式。
1. 数学期望(一阶原点矩)严格推导
数学期望是随机变量取值的加权平均,权重为对应概率,代入离散均匀分布的PMF:
这里用到正整数等差数列求和公式:\(\sum\limits_{i=1}^m i = \frac{m(m+1)}{2}\),将其代入上式:
与教材给出的公式完全一致,该结果符合分布的对称性——等概率分布的均值恰好是取值区间的中点。
2. 方差(二阶中心矩)严格推导
方差衡量随机变量取值的波动程度,核心定义为\(\text{Var}(X) = E\left[X - E(X)\right]^2\),为了简化计算,我们使用等价公式:
步骤1:计算二阶原点矩\(E(X^2)\)
这里用到正整数平方和公式:\(\sum\limits_{i=1}^m i^2 = \frac{m(m+1)(2m+1)}{6}\),代入上式:
步骤2:代入方差公式化简
我们已经得到\(E(X) = \frac{m+1}{2}\),因此\(\left[E(X)\right]^2 = \left(\frac{m+1}{2}\right)^2 = \frac{(m+1)^2}{4}\)。
将\(E(X^2)\)与\(\left[E(X)\right]^2\)代入方差公式:
为了合并化简,取公分母12,通分后提取公因子\((m+1)\):
展开括号内的项:\(2(2m+1) = 4m+2\),\(3(m+1)=3m+3\),因此:
代入后最终化简为:
与教材给出的方差公式完全一致,推导过程无任何跳步,每一步都有明确的公式依据。
3. 其他核心数字特征补充
- \(k\)阶原点矩:对任意正整数\(k\),\[E(X^k) = \frac{1}{m} \sum\limits_{i=1}^m i^k \]可通过正整数\(k\)次幂和公式直接计算。
- 中位数:分布关于\(\frac{m+1}{2}\)对称,因此中位数为\(\frac{m+1}{2}\);当\(m\)为奇数时,中位数与期望、众数完全重合;当\(m\)为偶数时,中位数为区间\([\frac{m}{2}, \frac{m}{2}+1]\)内的任意值,通常取中点\(\frac{m+1}{2}\)。
- 特征函数:特征函数是研究分布的核心工具,定义为\(\varphi(t) = E\left(e^{itX}\right)\),代入离散均匀分布的PMF,利用等比数列求和公式推导:\[\varphi(t) = \sum\limits_{i=1}^m e^{iti} \cdot \frac{1}{m} = \frac{e^{it}(1 - e^{itm})}{m(1 - e^{it})}, \quad t \in \mathbb{R} \]
四、核心性质与典型应用场景
1. 核心性质
- 对称性:分布关于对称中心\(\frac{m+1}{2}\)完全对称,即对任意整数\(k\),满足\[P\left(X = \frac{m+1}{2} + k\right) = P\left(X = \frac{m+1}{2} - k\right) \]这是等概率分布最核心的性质,也是其期望、中位数重合的根本原因。
- 退化兼容性:当\(m=1\)时,离散均匀分布\(U(1)\)退化为单点分布\(\delta(1)\),此时\(E(X)=1\),\(\text{Var}(X)=0\),与上一节单点分布的结论完全一致,验证了理论体系的自洽性。
- 条件分布封闭性:在给定\(X \in A\)(\(A\)是\(\{1,2,\dots,m\}\)的非空子集)的条件下,\(X\)的条件分布仍是离散均匀分布,且支撑集为\(A\)。
例:\(X \sim U(10)\),给定\(X\)为偶数,则\(X\)在\(\{2,4,6,8,10\}\)上服从离散均匀分布,每个取值的条件概率为\(\frac{1}{5}\)。 - 无记忆性不成立:离散均匀分布不具备无记忆性,这是它与几何分布的核心区别,切勿混淆。
2. 典型应用场景
- 古典概型建模:所有有限等可能的随机试验,都可以用离散均匀分布建模,例如掷标准骰子(\(m=6\))、随机抽签、从有限总体中简单随机抽样、扑克牌点数抽取等。
- 蒙特卡洛模拟:离散均匀分布是生成所有离散型随机变量的基础,逆变换法、舍选法等随机数生成算法,均以离散均匀随机数为底层支撑。
- 非参数统计:秩检验、符号检验等非参数统计方法中,原假设下样本秩的分布就是离散均匀分布,是整个非参数统计体系的理论基础之一。
- 随机化试验:临床试验、随机对照试验中的随机分组,本质上就是基于离散均匀分布实现,保证每个受试对象被分到各组的概率相等。
五、离散均匀分布核心信息归纳总结表
| 项目 | 核心内容 | 备注与说明 |
|---|---|---|
| 分布全称 | 离散均匀分布 | 有限等可能离散型分布 |
| 常用别名 | 离散矩形分布、有限等可能分布 | 古典概型的标准数学模型 |
| 分布记号 | \(X \sim U(m)\) | \(m\)为唯一正整数参数,代表总取值个数 |
| 支撑集 | \(\{1,2,\dots,m\}\) | 标准形式为1到m的正整数,可推广到任意有限实数集 |
| 概率质量函数(PMF) | \(p(x,m) = \begin{cases}\frac{1}{m}, & x=1,2,\dots,m \\ 0, & 其他\end{cases}\),或\(p(x,m)=\frac{1}{m}I\{1 \leq x \leq m, x \in \mathbb{N}^+\}\) | 满足非负性、规范性,每个取值等概率 |
| 分布函数(CDF) | \(F(x) = \begin{cases}0, & x < 1 \\ \frac{\lfloor x \rfloor}{m}, & 1 \leq x < m \\ 1, & x \geq m\end{cases}\) | 阶梯函数,在1,2,…,m处跳跃,跳跃高度均为\(\frac{1}{m}\) |
| 数学期望\(E(X)\) | \(\frac{m+1}{2}\) | 等于取值区间的中点,符合分布对称性 |
| 方差\(\text{Var}(X)\) | \(\frac{m^2 - 1}{12}\) | 方差随\(m\)增大而增大,取值范围越广,波动越大 |
| \(k\)阶原点矩\(E(X^k)\) | \(\frac{1}{m}\sum\limits_{i=1}^m i^k\)(\(k=1,2,3,\dots\)) | 可通过正整数k次幂和公式计算 |
| 中位数 | \(\frac{m+1}{2}\) | 与期望重合,对称中心 |
| 特征函数\(\varphi(t)\) | \(\frac{e^{it}(1 - e^{itm})}{m(1 - e^{it})}\)(\(t \in \mathbb{R}\)) | 由等比数列求和公式推导得到 |
| 核心性质 | 1. 关于\(\frac{m+1}{2}\)完全对称;2. \(m=1\)时退化为单点分布;3. 条件分布仍为离散均匀分布;4. 与任意独立离散均匀分布的和不服从离散均匀分布 | 是古典概型的核心分布 |
| 典型应用 | 古典概型建模、简单随机抽样、蒙特卡洛模拟、非参数秩检验、随机化试验设计 | 贯穿概率论与数理统计全体系的基础分布 |
两点分布(0-1分布/伯努利分布)详细讲解与严格推导证明
各位同学,今天我们讲解离散型分布中应用最广泛、理论意义最核心的两点分布,也叫0-1分布、伯努利分布。它是所有二分类随机试验的数学抽象,是二项分布、几何分布、负二项分布等经典离散分布的基础单元,更是广义线性模型、分类数据分析、示性函数理论的核心基石,我们将延续之前的讲解逻辑,从定义到推导、从性质到应用,完整拆解该分布的全部核心内容。
一、基础定义与核心概念澄清
1. 严格公理化定义
设\((\Omega, \mathcal{F}, P)\)为概率空间,\(X\)是定义在该空间上的随机变量。若\(X\)的支撑集仅为\(\{0,1\}\)两个点,且存在参数\(\theta \in [0,1]\),满足
则称随机变量\(X\)服从参数为\(\theta\)的两点分布,常用记号为\(X \sim b(1,\theta)\),也可记为\(X \sim \text{Bern}(\theta)\)(伯努利分布)。
2. 关键概念澄清
- 术语纠正:教材中提到的“密度函数”,对离散型随机变量而言,严格名称为概率质量函数(PMF);只有连续型随机变量才有概率密度函数(PDF),二者物理意义完全不同,后续我们统一使用严格的学术术语。
- 0-1编码的核心意义:我们用\(X=1\)表示“事件\(A\)发生、试验成功、结果为阳性”等二分类结果,用\(X=0\)表示“事件\(A\)不发生、试验失败、结果为阴性”,这种编码称为伯努利编码,它将定性的随机事件转化为了定量的随机变量,是概率论中连接事件与随机变量的核心桥梁。
- 参数的物理意义:唯一参数\(\theta\)是“成功概率”,即目标事件发生的概率,取值范围为\([0,1]\)。当\(\theta=0\)时,\(P(X=0)=1\),退化为单点分布\(\delta(0)\);当\(\theta=1\)时,\(P(X=1)=1\),退化为单点分布\(\delta(1)\),与上一节单点分布完全兼容,验证了理论体系的自洽性。
- 分布的定位:两点分布是二项分布\(b(n,\theta)\)当\(n=1\)时的特例,\(n\)次独立重复的两点分布试验,就是经典的伯努利试验序列,其结果之和服从二项分布。
二、概率质量函数(PMF)与分布函数(CDF)推导及合法性证明
1. 概率质量函数(PMF)推导与合法性验证
离散型随机变量的PMF定义为:对任意实数\(x\),\(p(x) = P(X=x)\),合法的PMF必须满足非负性\(p(x) \geq 0\)、规范性\(\sum\limits_{x \in \mathbb{R}} p(x) = 1\)。
(1)PMF的分段与统一形式
对于两点分布,分情况讨论:
- 当\(x=1\)时,\(p(1) = P(X=1) = \theta\);
- 当\(x=0\)时,\(p(0) = P(X=0) = 1 - \theta\);
- 当\(x \neq 0\)且\(x \neq 1\)时,\(p(x) = 0\)。
为了简化表达,我们可以将\(x=0\)和\(x=1\)的情况合并为统一的指数形式:
验证统一形式的正确性:
- 当\(x=1\)时,\(\theta^1 \cdot (1-\theta)^{0} = \theta \cdot 1 = \theta\),与定义一致;
- 当\(x=0\)时,\(\theta^0 \cdot (1-\theta)^{1} = 1 \cdot (1-\theta) = 1-\theta\),与定义一致。
(2)合法性验证
- 非负性:对任意\(x=0,1\),\(\theta \in [0,1]\),因此\(\theta^x \geq 0\),\((1-\theta)^{1-x} \geq 0\),故\(p(x,\theta) \geq 0\)恒成立,满足非负性;
- 规范性:对所有实数\(x\)求和,仅\(x=0\)和\(x=1\)时有非零值,因此\[\sum\limits_{x \in \mathbb{R}} p(x,\theta) = p(0,\theta) + p(1,\theta) = (1-\theta) + \theta = 1 \]完全满足规范性,是合法的概率质量函数。
2. 分布函数(CDF)推导与合法性证明
(1)分布函数的通用定义
对任意实数\(x\),随机变量\(X\)的分布函数定义为:
合法的分布函数必须满足三条核心性质:单调不减性、右连续性、极限规范性(\(\lim\limits_{x \to -\infty}F(x)=0\),\(\lim\limits_{x \to +\infty}F(x)=1\))。
(2)两点分布CDF的分情况推导
基于\(X\)仅取0和1的特性,分三类区间完整推导:
-
当\(x < 0\)时:
事件\(\{X \leq x\}\)表示“\(X\)的取值小于等于\(x\)”,但\(X\)的最小取值为0,因此该事件是不可能事件,不可能事件的概率为0,即:\[F(x) = P(X \leq x) = 0, \quad x < 0 \] -
当\(0 \leq x < 1\)时:
由于\(X\)仅取0和1,事件\(\{X \leq x\}\)等价于\(\{X=0\}\),因此:\[F(x) = P(X \leq x) = P(X=0) = 1 - \theta, \quad 0 \leq x < 1 \] -
当\(x \geq 1\)时:
事件\(\{X \leq x\}\)包含了\(X\)的所有可能取值,是必然事件,必然事件的概率为1,即:\[F(x) = P(X \leq x) = 1, \quad x \geq 1 \]
综上,两点分布的分布函数为分段函数:
其图像为阶梯函数,在\(x=0\)处跳跃高度为\(1-\theta\),在\(x=1\)处跳跃高度为\(\theta\)。
(3)分布函数的合法性证明
我们严格验证该函数满足分布函数的三条核心性质:
-
单调不减性:对任意\(x_1 < x_2\),
- 若\(x_2 < 0\):\(F(x_1)=0, F(x_2)=0\),满足\(F(x_1) \leq F(x_2)\);
- 若\(x_1 < 0 \leq x_2 < 1\):\(F(x_1)=0\),\(F(x_2)=1-\theta \geq 0\),满足单调性;
- 若\(0 \leq x_1 < x_2 < 1\):\(F(x_1)=1-\theta, F(x_2)=1-\theta\),满足单调性;
- 若\(x_1 < 1 \leq x_2\):\(F(x_1) \leq 1 = F(x_2)\),满足单调性;
- 若\(x_1 \geq 1\):\(F(x_1)=1, F(x_2)=1\),满足单调性。
因此对所有\(x_1 < x_2\),单调不减性成立。
-
右连续性:对任意\(x_0 \in \mathbb{R}\),需证\(\lim\limits_{x \to x_0^+} F(x) = F(x_0)\),
- 若\(x_0 < 0\):\(x \to x_0^+\)时\(x < 0\)仍成立,\(F(x)=0=F(x_0)\),右连续;
- 若\(0 \leq x_0 < 1\):\(x \to x_0^+\)时,\(0 \leq x < 1\)仍成立,\(F(x)=1-\theta=F(x_0)\),右连续;
- 若\(x_0 \geq 1\):\(x \to x_0^+\)时\(x \geq 1\),\(F(x)=1=F(x_0)\),右连续。
因此对所有\(x_0\),右连续性成立。
-
极限规范性:
- 当\(x \to -\infty\)时,\(x < 0\)恒成立,\(\lim\limits_{x \to -\infty}F(x) = 0\);
- 当\(x \to +\infty\)时,\(x \geq 1\)恒成立,\(\lim\limits_{x \to +\infty}F(x) = 1\)。
极限规范性完全成立。
三、指数族形式推导与logit变换详解
1. 指数族形式的严格推导
两点分布属于自然指数族分布,这是它能作为logistic回归核心的根本原因。指数族分布的标准形式为:
其中\(\eta\)为自然参数,\(T(x)\)为充分统计量,\(A(\eta)\)为对数配分函数,\(h(x)\)为基础测度。
我们基于两点分布的PMF,逐步推导其指数族形式:
-
第一步:将PMF转化为指数形式
利用对数与指数的恒等关系\(a^b = \exp\left\{ b \log a \right\}\),对PMF做变形:\[p(x,\theta) = \theta^x (1-\theta)^{1-x} = \exp\left\{ \log\left[ \theta^x (1-\theta)^{1-x} \right] \right\} \]根据对数的乘法性质\(\log(ab) = \log a + \log b\),展开括号内的项:
\[p(x,\theta) = \exp\left\{ x \log \theta + (1-x) \log(1-\theta) \right\} \] -
第二步:整理为标准指数族形式
展开并合并含\(x\)的项:\[x \log \theta + (1-x) \log(1-\theta) = x \log \theta + \log(1-\theta) - x \log(1-\theta) \]提取公因子\(x\),并利用对数的除法性质\(\log a - \log b = \log\left( \frac{a}{b} \right)\),合并对数项:
\[x \left[ \log \theta - \log(1-\theta) \right] + \log(1-\theta) = x \log\left( \frac{\theta}{1-\theta} \right) + \log(1-\theta) \]最终得到教材中的指数形式:
\[p(x,\theta) = \exp\left\{ x \log\left( \frac{\theta}{1-\theta} \right) + \log(1-\theta) \right\} \]对应指数族标准形式:自然参数\(\eta = \log\left( \frac{\theta}{1-\theta} \right)\),充分统计量\(T(x)=x\),对数配分函数\(A(\eta) = -\log(1-\theta)\),基础测度\(h(x)=0\)。
2. logit变换的核心意义
教材中定义\(\text{logit}(\theta) = \log\left( \frac{\theta}{1-\theta} \right)\),我们从三个维度拆解其核心价值:
- 数学定义:\(\frac{\theta}{1-\theta}\)称为优势比(Odds),表示成功概率与失败概率的比值,例如\(\theta=0.8\)时,优势比为\(\frac{0.8}{0.2}=4\),即成功的可能性是失败的4倍;\(\text{logit}(\theta)\)就是对优势比取自然对数,也叫对数优势比。
- 取值范围的优势:当\(\theta \in (0,1)\)时,\(\frac{\theta}{1-\theta} \in (0, +\infty)\),取对数后\(\text{logit}(\theta) \in (-\infty, +\infty)\),将原本限制在\([0,1]\)区间的概率,映射到了整个实数轴。
- 应用价值:这一变换解决了回归分析中“概率不能为负、不能超过1”的约束,我们可以用线性模型拟合\(\text{logit}(\theta)\),即\(\text{logit}(\theta) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p\),这就是经典的logistic回归模型,是生物统计、计量经济学、机器学习中二分类任务的核心模型。
四、核心数字特征的严格推导
1. 数学期望(一阶原点矩)严格推导
离散型随机变量的数学期望定义为:\(E(X) = \sum\limits_{x \in \mathbb{R}} x \cdot p(x)\),代入两点分布的PMF:
核心结论:两点分布的期望等于其成功概率\(\theta\)。
这一性质有极强的现实意义:任意事件\(A\)的示性函数\(I\{A\}\)(\(A\)发生时取1,不发生时取0)服从两点分布,因此\(E\left[ I\{A\} \right] = P(A)\),即示性函数的期望等于事件发生的概率,这是概率论中连接事件概率与随机变量期望的核心公式。
2. 方差(二阶中心矩)严格推导
方差衡量随机变量取值的波动程度,核心定义为\(\text{Var}(X) = E\left[ (X - E(X))^2 \right]\),我们用两种方法完整推导,验证结果的一致性。
方法1:利用方差简化公式\(\text{Var}(X) = E(X^2) - [E(X)]^2\)
第一步:计算二阶原点矩\(E(X^2)\)。
由于\(X\)仅取0和1,因此\(X^2 = X\)(\(0^2=0\),\(1^2=1\)),因此:
第二步:代入方差公式化简。
已知\(E(X)=\theta\),因此\([E(X)]^2 = \theta^2\),代入得:
方法2:利用方差原始定义直接推导
两种方法推导结果完全一致,与教材给出的公式吻合。
补充性质:方差\(\text{Var}(X)=\theta(1-\theta)\)是关于\(\theta\)的二次函数,在\(\theta=0.5\)时取得最大值\(\frac{1}{4}\),即当成功与失败概率相等时,两点分布的波动最大;当\(\theta\)趋近于0或1时,方差趋近于0,分布退化为单点分布,符合我们之前的结论。
3. 特征函数的严格推导
特征函数是研究分布的核心工具,定义为\(\varphi(t) = E\left[ e^{itX} \right]\),其中\(i\)为虚数单位,\(t \in \mathbb{R}\)。
代入两点分布的PMF,直接计算:
与教材给出的特征函数完全一致。
特征函数的验证:利用特征函数求矩的性质,对\(\varphi(t)\)求导:
- 一阶导数:\(\varphi'(t) = i\theta e^{it}\),\(\varphi'(0) = i\theta\),因此\(E(X) = \frac{\varphi'(0)}{i} = \theta\),与之前的结果一致;
- 二阶导数:\(\varphi''(t) = -\theta e^{it}\),\(\varphi''(0) = -\theta\),因此\(E(X^2) = \frac{\varphi''(0)}{i^2} = \theta\),与之前的结果一致。
五、核心性质与典型应用场景
1. 核心性质
- 退化兼容性:当\(\theta=0\)时,\(X\)恒为0,服从单点分布\(\delta(0)\);当\(\theta=1\)时,\(X\)恒为1,服从单点分布\(\delta(1)\),与单点分布形成完整的理论衔接。
- 示性函数等价性:概率空间中任意事件\(A\)的示性函数\(I\{A\}\),都服从参数为\(\theta=P(A)\)的两点分布,这是将事件运算转化为随机变量运算的核心桥梁,是勒贝格积分、期望定义的基础。
- 可加性:\(n\)个独立同分布的两点分布\(b(1,\theta)\)的和,服从二项分布\(b(n,\theta)\),这是二项分布的定义,也是独立重复伯努利试验的数学模型。
- 指数族属性:属于自然指数族分布,是广义线性模型的核心分布之一,为二分类数据的统计建模提供了理论基础。
2. 典型应用场景
- 单次二分类试验建模:所有只有两种结果的单次随机试验,都可以用两点分布建模,例如抛硬币(正面=1,反面=0)、产品质量检验(次品=1,正品=0)、疾病诊断(阳性=1,阴性=0)、用户行为转化(点击=1,不点击=0)等。
- 经典离散分布的基础单元:二项分布、几何分布、负二项分布等经典离散分布,均基于独立重复的伯努利试验构建,两点分布是这些分布的最小组成单元。
- 二分类回归建模:logistic回归、probit回归等二分类回归模型,核心就是对两点分布的成功概率\(\theta\)进行建模,是生物统计、计量经济学、机器学习中处理分类任务的核心工具。
- 蒙特卡洛模拟:二分类随机数的生成,本质就是基于两点分布的抽样,通过均匀分布随机数与\(\theta\)比较,生成0-1随机数,是蒙特卡洛模拟的基础算法。
六、两点分布核心信息归纳总结表
| 项目 | 核心内容 | 备注与说明 |
|---|---|---|
| 分布全称 | 两点分布 | 也叫0-1分布、伯努利分布 |
| 分布记号 | \(X \sim b(1,\theta)\)、\(X \sim \text{Bern}(\theta)\) | \(\theta\)为唯一参数,代表成功概率,取值范围\(\theta \in [0,1]\) |
| 支撑集 | \(\{0,1\}\) | 仅取0和1两个离散值 |
| 概率质量函数(PMF) | 分段形式:\(p(x,\theta)=\begin{cases}\theta, & x=1 \\ 1-\theta, & x=0 \\ 0, & 其他\end{cases}\) 统一形式:\(p(x,\theta)=\theta^x(1-\theta)^{1-x},\ x=0,1\) |
满足非负性、规范性,是合法的PMF |
| 分布函数(CDF) | \(F(x)=\begin{cases}0, & x < 0 \\ 1-\theta, & 0 \leq x < 1 \\ 1, & x \geq 1\end{cases}\) | 阶梯函数,在\(x=0\)和\(x=1\)处存在跳跃 |
| 指数族形式 | \(p(x,\theta) = \exp\left\{ x \log\left( \frac{\theta}{1-\theta} \right) + \log(1-\theta) \right\}\) | 属于自然指数族分布,是logistic回归的理论基础 |
| logit变换 | \(\text{logit}(\theta) = \log\left( \frac{\theta}{1-\theta} \right)\) | 对数优势比,将\(\theta \in (0,1)\)映射到\((-\infty,+\infty)\) |
| 数学期望\(E(X)\) | \(\theta\) | 等于成功概率,示性函数的期望等于事件发生概率 |
| 方差\(\text{Var}(X)\) | \(\theta(1-\theta)\) | 在\(\theta=0.5\)时取得最大值\(\frac{1}{4}\),\(\theta \to 0/1\)时方差趋近于0 |
| \(k\)阶原点矩\(E(X^k)\) | \(\theta\)(\(k=1,2,3,\dots\)) | 因\(X^k=X\),所有正整数阶原点矩均等于\(\theta\) |
| 特征函数\(\varphi(t)\) | \((1-\theta) + \theta e^{it}\)(\(t \in \mathbb{R}\)) | 可通过求导快速计算各阶矩 |
| 核心性质 | 1. \(\theta=0/1\)时退化为单点分布;2. 示性函数等价于两点分布;3. 独立同分布的和服从二项分布;4. 属于指数族分布 | 是二分类数据建模的核心基础 |
| 典型应用 | 单次二分类试验建模、伯努利试验序列、logistic回归、蒙特卡洛模拟、示性函数理论 | 贯穿概率论、数理统计、机器学习全体系 |
二项分布详细讲解与严格推导证明
各位同学,今天我们系统讲解离散型概率分布中应用最广泛、理论地位最核心的二项分布。它是n重独立伯努利试验的数学抽象,是两点分布的自然延伸,更是数理统计中参数估计、假设检验、分类数据分析的核心基础。我们将延续之前的讲解逻辑,从定义到推导、从核心性质到数值计算方法,完整拆解二项分布的全部内容,覆盖教材中所有公式的严格证明与深层含义。
一、基础定义与核心概念澄清
1. 严格公理化定义
设\((\Omega, \mathcal{F}, P)\)为概率空间,\(X\)是定义在该空间上的随机变量。若存在正整数\(n\)(试验次数)和参数\(\theta \in [0,1]\)(单次试验成功概率),使得\(X\)的支撑集为\(\{0,1,2,\dots,n\}\),且对任意\(i=0,1,\dots,n\),满足
则称随机变量\(X\)服从参数为\(n,\theta\)的二项分布,常用记号为\(X \sim b(n,\theta)\),也可记为\(X \sim \text{Bin}(n,\theta)\)。
其中\(\binom{n}{i} = \frac{n!}{i!(n-i)!}\)为组合数,表示从\(n\)次试验中选出\(i\)次成功的总情况数,该概率值也记为\(b(i|n,\theta)\)。
2. 核心概念澄清
- 术语纠正:教材中提到的“密度函数”,对离散型随机变量而言,严格名称为概率质量函数(PMF);只有连续型随机变量才有概率密度函数(PDF),后续我们统一使用严格的学术术语。
- 分布的本质:二项分布是n重独立重复伯努利试验的数学模型,对应现实中“重复做n次完全相同、相互独立的二分类试验,统计成功总次数”的场景,例如抛n次硬币的正面次数、抽n件产品的次品数、n个用户的点击转化次数等。
- 与两点分布的关系:当\(n=1\)时,二项分布\(b(1,\theta)\)直接退化为上一节讲解的两点分布(伯努利分布),二者完全兼容,两点分布是二项分布的最小单元,二项分布是独立两点分布的累加。
- 名称的由来:二项分布的PMF恰好是二项式定理\((\theta + (1-\theta))^n = \sum_{i=0}^n \binom{n}{i}\theta^i(1-\theta)^{n-i}\)的通项,因此得名二项分布。
二、概率质量函数(PMF)的推导与合法性证明
1. PMF的严格推导
我们基于n重伯努利试验的核心假设,完整推导PMF的表达式:
n重伯努利试验满足4个核心条件:
- 重复性:每次试验完全相同,只有“成功(事件A发生)”和“失败(事件A不发生)”两个结果;
- 独立性:各次试验的结果相互之间无影响;
- 概率不变性:每次试验成功的概率恒为\(\theta\),失败概率恒为\(1-\theta\)。
要计算“n次试验中恰好成功i次”的概率\(P(X=i)\),分两步分析:
- 第一步:确定“i次成功、n-i次失败”的排列方式。从n次试验中选i次作为成功,剩余n-i次为失败,总共有\(\binom{n}{i}\)种不同的组合方式;
- 第二步:计算单一种排列的概率。由于试验独立,“指定i次成功、剩余n-i次失败”的概率为\(\underbrace{\theta \cdot \theta \cdot \dots \cdot \theta}_{i个} \cdot \underbrace{(1-\theta) \cdot (1-\theta) \cdot \dots \cdot (1-\theta)}_{n-i个} = \theta^i (1-\theta)^{n-i}\)。
由于不同的组合方式对应的事件两两互斥,根据概率的有限可加性,总概率为所有组合的概率之和,即:
2. PMF的合法性验证
合法的PMF必须满足非负性和规范性,我们分别验证:
- 非负性:对任意\(i=0,1,\dots,n\),组合数\(\binom{n}{i} \geq 0\),\(\theta \in [0,1]\)故\(\theta^i \geq 0\),\((1-\theta)^{n-i} \geq 0\),因此\(P(X=i) \geq 0\)恒成立,满足非负性。
- 规范性:对所有可能的取值求和,利用二项式定理:\[\sum_{i=0}^n P(X=i) = \sum_{i=0}^n \binom{n}{i} \theta^i (1-\theta)^{n-i} = \left[ \theta + (1-\theta) \right]^n = 1^n = 1 \]完全满足规范性,是合法的概率质量函数。
三、二项分布的核心分解:两点分布的独立和
教材中给出的二项分布分解式,是理解和推导二项分布所有性质的核心工具,我们先明确分解的定义,再说明其深层意义。
1. 分解式的严格定义
若\(X \sim b(n,\theta)\),则\(X\)可以表示为\(n\)个独立同分布的两点分布随机变量之和,即:
其中每个\(X_i\)是第\(i\)次伯努利试验的示性函数,定义为:
且\(X_1,X_2,\dots,X_n\)相互独立,每个\(X_i \sim b(1,\theta)\)(两点分布)。
2. 分解式的核心意义
这个分解式将复杂的二项分布,拆解为\(n\)个最简单的两点分布的独立和,带来了两个核心优势:
- 简化推导:二项分布的期望、方差、特征函数、可加性等所有性质,都可以通过两点分布的对应性质直接推导,无需进行复杂的组合数求和;
- 理论衔接:建立了单次试验与多次重复试验的数学联系,是伯努利试验序列、大数定律、中心极限定理的理论基础。
四、核心数字特征的严格推导
我们将通过分解法(优先)和直接求和法两种方式,完整推导二项分布的期望与方差,两种方法结果完全一致,相互验证。
1. 数学期望\(E(X) = n\theta\)的严格推导
方法1:分解法(期望的线性性)
期望具有线性性:对任意随机变量\(X_1,\dots,X_n\),无论是否独立,都有\(E\left( \sum_{i=1}^n X_i \right) = \sum_{i=1}^n E(X_i)\)。
已知每个\(X_i \sim b(1,\theta)\),两点分布的期望\(E(X_i) = \theta\),因此:
方法2:直接求和法(组合恒等式+二项式定理)
根据离散型随机变量期望的定义:
- 当\(i=0\)时,求和项为0,因此求和下限可改为\(i=1\);
- 利用组合恒等式:\(i \cdot \binom{n}{i} = n \cdot \binom{n-1}{i-1}\),推导如下:\[i \cdot \binom{n}{i} = i \cdot \frac{n!}{i!(n-i)!} = \frac{n!}{(i-1)!(n-i)!} = n \cdot \frac{(n-1)!}{(i-1)! \cdot [(n-1)-(i-1)]!} = n \cdot \binom{n-1}{i-1} \]
将恒等式代入期望公式,提取公因子\(n\theta\):
令\(k = i-1\),则求和范围变为\(k=0\)到\(k=n-1\),求和项为二项式展开的全和:
因此最终得到:
与分解法结果完全一致,符合教材给出的公式。
2. 方差\(\text{Var}(X) = n\theta(1-\theta)\)的严格推导
方差的核心定义为\(\text{Var}(X) = E\left[ (X - E(X))^2 \right]\),常用简化公式为\(\text{Var}(X) = E(X^2) - [E(X)]^2\)。
方法1:分解法(独立随机变量的方差可加性)
对于相互独立的随机变量\(X_1,\dots,X_n\),方差具有可加性:\(\text{Var}\left( \sum_{i=1}^n X_i \right) = \sum_{i=1}^n \text{Var}(X_i)\)。
已知每个\(X_i \sim b(1,\theta)\),两点分布的方差\(\text{Var}(X_i) = \theta(1-\theta)\),且\(X_1,\dots,X_n\)相互独立,因此:
方法2:直接求和法(二阶矩计算+组合恒等式)
我们通过简化公式计算,先求二阶原点矩\(E(X^2)\)。利用恒等式\(X^2 = X(X-1) + X\),因此:
先计算\(E\left[ X(X-1) \right]\),根据定义:
- 当\(i=0\)和\(i=1\)时,求和项为0,因此求和下限改为\(i=2\);
- 利用组合恒等式:\(i(i-1) \cdot \binom{n}{i} = n(n-1) \cdot \binom{n-2}{i-2}\),推导如下:\[i(i-1) \cdot \binom{n}{i} = i(i-1) \cdot \frac{n!}{i!(n-i)!} = \frac{n!}{(i-2)!(n-i)!} = n(n-1) \cdot \frac{(n-2)!}{(i-2)! \cdot [(n-2)-(i-2)]!} = n(n-1) \cdot \binom{n-2}{i-2} \]
将恒等式代入,提取公因子\(n(n-1)\theta^2\):
令\(k = i-2\),求和范围变为\(k=0\)到\(k=n-2\),求和项为二项式展开的全和,结果为1,因此:
代入\(E(X^2)\)的表达式,结合\(E(X)=n\theta\):
最后代入方差简化公式:
与分解法结果完全一致,与教材给出的公式吻合。
五、特征函数的严格推导
特征函数是研究随机变量分布的核心工具,定义为\(\varphi(t) = E\left[ e^{itX} \right]\),其中\(i\)为虚数单位,\(t \in \mathbb{R}\)。我们同样用两种方法推导二项分布的特征函数。
方法1:分解法(独立随机变量特征函数的乘积性)
对于相互独立的随机变量\(X_1,\dots,X_n\),和的特征函数等于各变量特征函数的乘积:\(\varphi_X(t) = \prod_{i=1}^n \varphi_{X_i}(t)\)。
已知两点分布\(X_i \sim b(1,\theta)\)的特征函数为\(\varphi_{X_i}(t) = (1-\theta) + \theta e^{it}\),因此:
方法2:直接定义法(二项式定理)
根据特征函数的定义,代入二项分布的PMF:
根据二项式定理,该求和式等于\(\left( \theta e^{it} + (1-\theta) \right)^n\),即:
两种方法结果完全一致,与教材给出的公式吻合。
六、二项分布核心性质的严格证明
1. 可加性(教材性质4)
定理:若\(X_1 \sim b(n_1, \theta)\),\(X_2 \sim b(n_2, \theta)\),且\(X_1\)与\(X_2\)相互独立,则
严格证明(特征函数法):
- \(X_1\)的特征函数为\(\varphi_1(t) = \left[ (1-\theta) + \theta e^{it} \right]^{n_1}\);
- \(X_2\)的特征函数为\(\varphi_2(t) = \left[ (1-\theta) + \theta e^{it} \right]^{n_2}\);
- 由于\(X_1\)与\(X_2\)独立,因此\(X_1+X_2\)的特征函数为:\[\varphi(t) = \varphi_1(t) \cdot \varphi_2(t) = \left[ (1-\theta) + \theta e^{it} \right]^{n_1 + n_2} \]
- 该特征函数恰好是参数为\(n_1+n_2, \theta\)的二项分布的特征函数,根据特征函数的唯一性定理,随机变量的分布与特征函数一一对应,因此\(X_1 + X_2 \sim b(n_1 + n_2, \theta)\)。
补充说明:可加性要求两个二项分布的成功概率\(\theta\)相同,若\(\theta\)不同,可加性不成立。该性质可推广到任意\(k\)个独立同\(\theta\)的二项分布之和。
2. 渐近正态性(教材性质5,棣莫弗-拉普拉斯中心极限定理)
定理:若\(X \sim b(n, \theta)\),则标准化后的随机变量
当\(n \to +\infty\)时,依分布收敛于标准正态分布\(N(0,1)\),即对任意实数\(x\),有
其中\(\Phi(x)\)为标准正态分布的分布函数。
核心意义:这是历史上第一个中心极限定理,给出了二项分布的正态近似方法。当\(n\)足够大时,二项分布\(b(n,\theta)\)可以近似为正态分布\(N(n\theta, n\theta(1-\theta))\),无需计算复杂的组合数求和,即可快速计算二项分布的概率,是大样本统计推断的核心基础。
3. 补充核心性质:最可能成功次数(众数)
二项分布的众数是使得\(b(i|n,\theta)\)取得最大值的\(i\),记为\(i_0\),满足:
- 当\((n+1)\theta\)为整数时,众数为\(i_0=(n+1)\theta\)和\(i_0=(n+1)\theta - 1\),两个取值的概率相等且最大;
- 当\((n+1)\theta\)不是整数时,众数为\(i_0 = \lfloor (n+1)\theta \rfloor\)(向下取整)。
该性质可通过相邻项的比值\(\frac{b(i|n,\theta)}{b(i-1|n,\theta)}\)与1的大小比较证明,是二项分布概率分布的核心特征。
七、分布函数(CDF)与不完全β函数的关系
二项分布的分布函数是实际计算中最常用的工具,教材中给出了其与不完全β函数的等价关系,我们先明确定义,再给出严格证明。
1. 二项分布的分布函数定义
对任意实数\(x\),二项分布的分布函数定义为:
其中\(\lfloor x \rfloor\)表示不超过\(x\)的最大整数(向下取整)。
对于整数\(i=0,1,\dots,n\),我们定义累积分布函数:
对应的生存函数(右尾概率)为:
2. 预备知识:Γ函数、β函数与正则化不完全β函数
(1)Γ函数
Γ函数是阶乘在实数域上的推广,定义为:
核心性质:
- 递推性:\(\Gamma(p+1) = p\Gamma(p)\);
- 正整数阶乘:对正整数\(n\),\(\Gamma(n+1) = n!\)。
(2)β函数
β函数是二项式系数在实数域上的推广,定义为:
与Γ函数的关系:
对正整数\(p,q\),有\(\beta(p,q) = \frac{(p-1)!(q-1)!}{(p+q-1)!}\)。
(3)正则化不完全β函数(教材定义)
正则化不完全β函数是β分布的分布函数,定义为:
它表示完整β函数在\([0,\xi]\)上的积分占比,取值范围为\([0,1]\)。
3. 不完全β函数的核心性质与二项分布的等价性证明
(1)性质1:对称性(教材1.2.2式)
证明:对\(I_{1-\xi}(q,p)\)做变量替换,令\(x=1-t\),则\(dx=-dt\),积分上下限从\(x=0\)到\(x=1-\xi\)变为\(t=1\)到\(t=\xi\),因此:
移项即得\(I_\xi(p,q) + I_{1-\xi}(q,p) = 1\),其中用到了\(\beta(p,q)=\beta(q,p)\)的对称性。
(2)性质2:生存函数与不完全β函数的等价性(教材1.2.3式)
严格证明(分部积分法):
第一步:先化简正则化不完全β函数的系数。对正整数\(i,n\),有:
第二步:对积分\(\int_0^\theta x^{i-1} (1-x)^{n-i} dx\)做分部积分。令:
则:
根据分部积分公式\(\int u dv = uv|_0^\theta - \int v du\),代入得:
第三步:两边乘以\(\frac{1}{\beta(i,n-i+1)} = i\binom{n}{i}\),左边即为\(I_\theta(i,n-i+1)\),右边第一项为:
右边第二项为:
利用组合恒等式\(\binom{n}{i}(n-i) = (i+1)\binom{n}{i+1} = \frac{1}{\beta(i+1, n-i)}\),因此第二项恰好为\(I_\theta(i+1, n-i)\)。
由此得到递推式:
第四步:递推到边界条件。当\(i=n\)时,\(I_\theta(n,1) = \frac{1}{\beta(n,1)} \int_0^\theta x^{n-1} dx = n \cdot \frac{\theta^n}{n} = \theta^n = b(n|n,\theta)\),符合递推式。
将递推式展开,最终得到:
即教材中的1.2.3式,证明完毕。
(3)性质3:分布函数与不完全β函数的等价性(教材1.2.4式)
证明:
- 第一部分:\(P(X \leq i) = 1 - P(X \geq i+1)\),根据性质2,\(P(X \geq i+1) = I_\theta(i+1, n-(i+1)+1) = I_\theta(i+1, n-i)\),因此\(P(X \leq i) = 1 - I_\theta(i+1, n-i)\)。
- 第二部分:根据性质1的对称性,\(1 - I_\theta(i+1, n-i) = I_{1-\theta}(n-i, i+1)\)。
两部分结合即得教材中的1.2.4式,证明完毕。
4. 等价关系的核心意义
- 数值计算:二项分布的累积概率可以通过成熟的不完全β函数数值算法计算,避免了大\(n\)下组合数求和的计算量爆炸问题;
- 理论衔接:建立了离散型二项分布与连续型β分布的联系,教材中给出的\(F(i) = P_\theta(X \leq i) = P(Z > \theta)\)(其中\(Z \sim BE(i+1, n-i)\),即β分布),是贝叶斯统计中二项分布与β分布共轭性的核心理论基础;
- 统计推断:二项分布参数的区间估计、假设检验(精确检验),均基于该等价关系实现。
八、二项分布核心信息归纳总结表
| 项目 | 核心内容 | 备注与说明 |
|---|---|---|
| 分布全称 | 二项分布 | 也叫n重伯努利分布,离散型经典分布 |
| 分布记号 | \(X \sim b(n,\theta)\)、\(X \sim \text{Bin}(n,\theta)\) | \(n\)为试验次数(正整数),\(\theta\)为单次成功概率,\(\theta \in [0,1]\) |
| 支撑集 | \(\{0,1,2,\dots,n\}\) | 取值为0到n的所有整数 |
| 概率质量函数(PMF) | $b(i | n,\theta) = \binom{n}{i}\thetai(1-\theta), \quad i=0,1,\dots,n$ |
| 分布函数(CDF) | \(F(x) = \sum_{k=0}^{\lfloor x \rfloor} \binom{n}{k}\theta^k(1-\theta)^{n-k}\) | \(\lfloor x \rfloor\)为向下取整函数,整数\(i\)的累积分布记为$B(i |
| 核心分解 | \(X = \sum_{i=1}^n X_i\),\(X_i\)独立同分布于\(b(1,\theta)\)(两点分布) | 所有性质的推导基础,建立单次与多次试验的联系 |
| 数学期望\(E(X)\) | \(n\theta\) | 等于试验次数乘以单次成功概率 |
| 方差\(\text{Var}(X)\) | \(n\theta(1-\theta)\) | 随\(n\)增大而增大,\(\theta=0.5\)时单位方差最大 |
| 特征函数\(\varphi(t)\) | \(\left[ (1-\theta) + \theta e^{it} \right]^n\) | 由二项式定理直接推导,可用于求矩、证明可加性 |
| 可加性 | 若\(X_1 \sim b(n_1,\theta), X_2 \sim b(n_2,\theta)\)且独立,则\(X_1+X_2 \sim b(n_1+n_2,\theta)\) | 要求成功概率\(\theta\)相同,可推广到多个独立分布之和 |
| 渐近正态性 | \(\frac{X-n\theta}{\sqrt{n\theta(1-\theta)}} \xrightarrow{d} N(0,1)\)(\(n \to \infty\)) | 棣莫弗-拉普拉斯中心极限定理,大样本下可正态近似 |
| 与不完全β函数的关系 | 1. \(P(X \geq i) = I_\theta(i, n-i+1)\) 2. \(P(X \leq i) = 1 - I_\theta(i+1, n-i) = I_{1-\theta}(n-i, i+1)\) |
用于二项分布累积概率的精确计算,衔接β分布 |
| 众数(最可能成功次数) | 1. \((n+1)\theta\)为整数时,众数为\((n+1)\theta\)和\((n+1)\theta-1\) 2. 非整数时,众数为\(\lfloor (n+1)\theta \rfloor\) |
概率质量最大的取值 |
| 核心应用场景 | n重独立重复二分类试验建模、产品质量检验、临床试验有效率分析、二分类数据统计推断、贝叶斯共轭先验建模、蒙特卡洛模拟 | 是数理统计中离散型数据建模的核心基础分布 |
帕斯卡(Pascal)分布详细讲解与严格推导证明
各位同学,今天我们系统讲解离散型分布中几何分布的自然推广——帕斯卡分布,也叫负二项分布(试验次数形式)。它是伯努利试验序列中“第r次成功所需总试验次数”的数学模型,是排队论、可靠性理论、质量控制等领域的核心基础分布。我们将延续一贯的讲解逻辑,从定义到推导、从核心性质到应用场景,完整拆解该分布的全部内容,覆盖教材中所有公式的严格证明与深层含义。
一、基础定义与核心概念澄清
1. 严格公理化定义
设\((\Omega, \mathcal{F}, P)\)为概率空间,\(X\)是定义在该空间上的随机变量。若存在正整数\(r\)(目标成功次数)和参数\(\theta \in (0,1)\)(单次伯努利试验的成功概率),使得\(X\)的支撑集为\(\{r, r+1, r+2, \dots\}\)(所有不小于\(r\)的正整数),且对任意整数\(i \geq r\),满足
则称随机变量\(X\)服从参数为\(r,\theta\)的帕斯卡分布,常用记号为\(X \sim PA(r,\theta)\),也可记为\(X \sim \text{NB}(r,\theta)\)(负二项分布的试验次数形式)。
该概率值也记为\(pa(i|r,\theta)\),其中\(\binom{i-1}{r-1} = \frac{(i-1)!}{(r-1)!(i-r)!}\)为组合数。
2. 核心概念澄清
- 术语纠正:教材中提到的“密度函数”,对离散型随机变量而言,严格名称为概率质量函数(PMF);只有连续型随机变量才有概率密度函数(PDF),后续我们统一使用严格的学术术语。
- 试验背景:帕斯卡分布的核心场景是独立重复伯努利试验序列:持续进行单次成功概率为\(\theta\)的独立伯努利试验,直到恰好出现\(r\)次成功为止,记录此时的总试验次数\(X\)。
- 与几何分布的关系:当\(r=1\)时,帕斯卡分布\(PA(1,\theta)\)直接退化为几何分布\(G(\theta)\)。几何分布描述“首次成功所需的试验次数”,帕斯卡分布是其推广,描述“第\(r\)次成功所需的总试验次数”,二者是单元与整体的关系。
- 与负二项分布的区别:部分教材将“\(r\)次成功前的失败次数”定义为负二项分布,记为\(Y\)。此时\(Y\)与帕斯卡分布的\(X\)满足线性关系\(X = Y + r\),\(Y\)的支撑集为\(\{0,1,2,\dots\}\),PMF为\(P(Y=k) = \binom{k+r-1}{r-1} \theta^r (1-\theta)^k\),二者本质等价,仅参数化形式不同,学习时需注意区分定义形式。
- 与二项分布的核心差异:二项分布是固定试验次数\(n\),统计成功次数;帕斯卡分布是固定成功次数\(r\),统计所需试验次数,二者均基于伯努利试验,但研究的随机变量完全不同,切勿混淆。
二、概率质量函数(PMF)的严格推导与合法性验证
1. PMF的直观与严格推导
我们从帕斯卡分布的试验背景出发,完整推导PMF的表达式:
事件\(\{X = i\}\)表示第\(i\)次试验恰好是第\(r\)次成功,该事件等价于两个独立子事件的交集:
- 前\(i-1\)次试验中,恰好出现\(r-1\)次成功;
- 第\(i\)次试验结果为成功。
我们分别计算两个子事件的概率:
- 前\(i-1\)次试验中恰好\(r-1\)次成功的概率:这是固定\(i-1\)次试验的二项分布概率,即\(\binom{i-1}{r-1} \theta^{r-1} (1-\theta)^{(i-1)-(r-1)} = \binom{i-1}{r-1} \theta^{r-1} (1-\theta)^{i-r}\);
- 第\(i\)次试验成功的概率:单次伯努利试验的成功概率为\(\theta\)。
由于各次试验相互独立,两个子事件独立,因此总概率为二者的乘积:
关键易错点提醒:组合数是\(\binom{i-1}{r-1}\)而非\(\binom{i}{r}\),因为第\(i\)次试验必须是成功,不能纳入前序的组合选择中,这是帕斯卡分布与二项分布PMF的核心区别。
2. PMF的合法性验证
合法的PMF必须满足非负性和规范性,我们分别严格验证:
-
非负性:对任意\(i \geq r\),组合数\(\binom{i-1}{r-1} \geq 0\),\(\theta \in (0,1)\)故\(\theta^r > 0\),\((1-\theta)^{i-r} \geq 0\),因此\(P(X=i) \geq 0\)恒成立,满足非负性。
-
规范性:需证明无穷级数求和\(\sum_{i=r}^\infty P(X=i) = 1\),这里需要用到负二项式定理(广义二项式展开)。
负二项式定理:对任意实数\(r>0\),\(|x|<1\),有\[(1-x)^{-r} = \sum_{k=0}^\infty \binom{k+r-1}{r-1} x^k \]其中\(\binom{k+r-1}{r-1}\)为广义组合数,当\(r\)为正整数时,就是普通组合数。
证明步骤:
- 第一步:做变量替换,令\(k = i - r\),则\(i = k + r\),当\(i\)从\(r\)到\(+\infty\)时,\(k\)从\(0\)到\(+\infty\),求和式变为:\[\sum_{i=r}^\infty P(X=i) = \sum_{k=0}^\infty \binom{(k+r)-1}{r-1} \theta^r (1-\theta)^{(k+r)-r} = \theta^r \sum_{k=0}^\infty \binom{k+r-1}{r-1} (1-\theta)^k \]
- 第二步:应用负二项式定理,令\(x=1-\theta\),显然\(|x|=1-\theta < 1\),因此:\[\sum_{k=0}^\infty \binom{k+r-1}{r-1} (1-\theta)^k = (1 - (1-\theta))^{-r} = \theta^{-r} \]
- 第三步:代入求和式,得到:\[\sum_{i=r}^\infty P(X=i) = \theta^r \cdot \theta^{-r} = 1 \]
完全满足规范性,是合法的概率质量函数。
- 第一步:做变量替换,令\(k = i - r\),则\(i = k + r\),当\(i\)从\(r\)到\(+\infty\)时,\(k\)从\(0\)到\(+\infty\),求和式变为:
三、核心分解:独立几何分布的和
教材中给出的分解式是理解和推导帕斯卡分布所有性质的核心工具,我们先明确定义,再说明其深层意义。
1. 分解式的严格定义
若\(X \sim PA(r,\theta)\),则\(X\)可以表示为\(r\)个独立同分布的几何分布随机变量之和,即:
其中\(X_k\)的定义为:
- \(X_1\):从试验开始到第1次成功所需的试验次数;
- \(X_2\):第1次成功后,到第2次成功所需的试验次数;
- ...
- \(X_k\):第\(k-1\)次成功后,到第\(k\)次成功所需的试验次数。
由于伯努利试验具有独立性和无记忆性,\(X_1,X_2,\dots,X_r\)相互独立,且每个\(X_k \sim G(\theta) = PA(1,\theta)\)(几何分布)。
2. 分解式的核心意义
这个分解式将复杂的帕斯卡分布,拆解为\(r\)个最简单的几何分布的独立和,带来了两个核心优势:
- 简化推导:帕斯卡分布的期望、方差、特征函数、可加性等所有性质,都可以通过几何分布的对应性质直接推导,无需进行复杂的无穷级数求和;
- 理论衔接:建立了单次成功与多次成功的数学联系,是更新过程、排队论中到达间隔模型的理论基础。
四、核心数字特征的严格推导
我们将通过分解法(优先)和直接定义法两种方式,完整推导帕斯卡分布的期望与方差,两种方法结果完全一致,相互验证。
前置知识:几何分布的数字特征
几何分布\(X_k \sim G(\theta)\)的PMF为\(P(X_k = t) = (1-\theta)^{t-1}\theta, \ t \geq 1\),其核心数字特征为:
- 数学期望:\(E(X_k) = \frac{1}{\theta} = \theta^{-1}\)
- 方差:\(\text{Var}(X_k) = \frac{1-\theta}{\theta^2} = (1-\theta)\theta^{-2}\)
1. 数学期望\(E(X) = r\theta^{-1}\)的严格推导
方法1:分解法(期望的线性性)
期望具有线性性:对任意随机变量\(X_1,\dots,X_r\),无论是否独立,都有\(E\left( \sum_{k=1}^r X_k \right) = \sum_{k=1}^r E(X_k)\)。
代入几何分布的期望,直接得到:
方法2:直接定义法(负二项式定理)
根据离散型随机变量期望的定义:
做变量替换\(k = i - r\),即\(i = k + r\),求和式变为:
利用组合恒等式:\((k+r)\binom{k+r-1}{r-1} = r \cdot \binom{k+r}{r}\),代入后提取公因子\(r\):
再次应用负二项式定理,\(\sum_{k=0}^\infty \binom{k+r}{r} (1-\theta)^k = (1-(1-\theta))^{-(r+1)} = \theta^{-(r+1)}\),代入得:
与分解法结果完全一致,符合教材给出的公式。
2. 方差\(\text{Var}(X) = r(1-\theta)\theta^{-2}\)的严格推导
方差的核心定义为\(\text{Var}(X) = E\left[ (X - E(X))^2 \right]\),对于相互独立的随机变量,方差具有可加性:\(\text{Var}\left( \sum_{k=1}^r X_k \right) = \sum_{k=1}^r \text{Var}(X_k)\)。
方法1:分解法(独立随机变量的方差可加性)
由于\(X_1,X_2,\dots,X_r\)相互独立,代入几何分布的方差,直接得到:
方法2:直接定义法(二阶矩计算)
通过方差简化公式\(\text{Var}(X) = E(X^2) - [E(X)]^2\),利用负二项式定理计算\(E(X^2)\),最终可得到与分解法完全一致的结果,此处不再赘述,核心结论与教材公式完全吻合。
3. 特征函数的严格推导
特征函数是研究随机变量分布的核心工具,定义为\(\varphi(t) = E\left[ e^{itX} \right]\),其中\(i\)为虚数单位,\(t \in \mathbb{R}\)。
对于独立随机变量之和,和的特征函数等于各变量特征函数的乘积。几何分布\(X_k \sim G(\theta)\)的特征函数为:
因此帕斯卡分布的特征函数为:
该特征函数是后续证明可加性、推导高阶矩的核心工具。
五、核心性质的严格证明
1. 可加性(教材性质3)
定理:若\(X_1 \sim PA(r_1, \theta)\),\(X_2 \sim PA(r_2, \theta)\),且\(X_1\)与\(X_2\)相互独立,则
严格证明(两种方法):
方法1:分解法(最直观)
- \(X_1\)可分解为\(r_1\)个独立同分布的几何分布之和:\(X_1 = \sum_{k=1}^{r_1} X_k\);
- \(X_2\)可分解为\(r_2\)个独立同分布的几何分布之和:\(X_2 = \sum_{k=r_1+1}^{r_1+r_2} X_k\);
- 由于\(X_1\)与\(X_2\)独立,所有\(X_k\)相互独立,均服从\(G(\theta)\);
- 因此\(X_1+X_2 = \sum_{k=1}^{r_1+r_2} X_k\),是\(r_1+r_2\)个独立几何分布的和,服从\(PA(r_1+r_2, \theta)\)。
方法2:特征函数法(最严谨)
- \(X_1\)的特征函数为\(\varphi_1(t) = \left( \frac{\theta e^{it}}{1 - (1-\theta)e^{it}} \right)^{r_1}\);
- \(X_2\)的特征函数为\(\varphi_2(t) = \left( \frac{\theta e^{it}}{1 - (1-\theta)e^{it}} \right)^{r_2}\);
- 由于\(X_1\)与\(X_2\)独立,\(X_1+X_2\)的特征函数为:\[\varphi(t) = \varphi_1(t) \cdot \varphi_2(t) = \left( \frac{\theta e^{it}}{1 - (1-\theta)e^{it}} \right)^{r_1 + r_2} \]
- 该特征函数恰好是参数为\(r_1+r_2, \theta\)的帕斯卡分布的特征函数,根据特征函数的唯一性定理,随机变量的分布与特征函数一一对应,因此\(X_1 + X_2 \sim PA(r_1 + r_2, \theta)\)。
补充说明:可加性要求两个帕斯卡分布的单次成功概率\(\theta\)相同,若\(\theta\)不同,可加性不成立。该性质可推广到任意\(k\)个独立同\(\theta\)的帕斯卡分布之和。
2. 退化性质
当\(r=1\)时,帕斯卡分布\(PA(1,\theta)\)退化为几何分布\(G(\theta)\),此时所有性质与几何分布完全一致,包括无记忆性。
补充说明:当\(r>1\)时,帕斯卡分布不具备无记忆性。无记忆性是几何分布的独有性质,即\(P(X>s+t | X>s) = P(X>t)\),\(r>1\)时该等式不成立,这是帕斯卡分布与几何分布的核心区别。
3. 与负二项分布的等价转换
若\(X \sim PA(r,\theta)\),令\(Y = X - r\)(\(r\)次成功前的失败次数),则\(Y\)服从负二项分布,其PMF为:
该转换是贝叶斯统计中“二项分布与β分布共轭性”的核心基础,也是计数数据建模的常用形式。
六、典型应用场景
- 质量控制与抽样检验:连续抽检产品,直到抽到第\(r\)个次品为止,记录总抽检次数,该次数服从帕斯卡分布,是验收抽样方案的核心模型。
- 可靠性工程:系统需要\(r\)个相同部件依次工作,每个部件的寿命服从几何分布,系统的总寿命服从帕斯卡分布,用于冗余系统的可靠性评估。
- 排队论与随机过程:顾客到达服从伯努利过程,第\(r\)个顾客到达的时间间隔服从帕斯卡分布,是更新过程、离散时间排队系统的基础模型。
- 生物统计与流行病学:观察到第\(r\)个感染病例所需的暴露次数、第\(r\)次复发所需的随访时间,均可用帕斯卡分布建模。
- 金融工程与风险管理:标的资产价格出现\(r\)次上涨所需的交易次数、触发第\(r\)次违约所需的观测期数,服从帕斯卡分布,用于期权定价与信用风险建模。
七、帕斯卡分布核心信息归纳总结表
| 项目 | 核心内容 | 备注与说明 |
|---|---|---|
| 分布全称 | 帕斯卡分布 | 也叫负二项分布(试验次数形式),离散型等待时间分布 |
| 分布记号 | \(X \sim PA(r,\theta)\)、\(X \sim \text{NB}(r,\theta)\) | \(r\)为目标成功次数(正整数),\(\theta\)为单次成功概率,\(\theta \in (0,1)\) |
| 支撑集 | \(\{r, r+1, r+2, \dots\}\) | 所有不小于\(r\)的正整数 |
| 概率质量函数(PMF) | $pa(i | r,\theta) = \binom{i-1}{r-1} \theta^r (1-\theta)^{i-r}, \quad i \geq r$ |
| 核心分解 | \(X = \sum_{k=1}^r X_k\),\(X_k\)独立同分布于几何分布\(G(\theta)\) | 所有性质的推导基础,建立与几何分布的联系 |
| 数学期望\(E(X)\) | \(\frac{r}{\theta} = r\theta^{-1}\) | 与成功次数\(r\)成正比,与单次成功概率\(\theta\)成反比 |
| 方差\(\text{Var}(X)\) | \(\frac{r(1-\theta)}{\theta^2} = r(1-\theta)\theta^{-2}\) | 随\(r\)增大而增大,随\(\theta\)增大而减小 |
| 特征函数\(\varphi(t)\) | \(\left( \frac{\theta e^{it}}{1 - (1-\theta)e^{it}} \right)^r\) | 由独立几何分布的特征函数乘积得到 |
| 可加性 | 若\(X_1 \sim PA(r_1,\theta), X_2 \sim PA(r_2,\theta)\)且独立,则\(X_1+X_2 \sim PA(r_1+r_2,\theta)\) | 要求单次成功概率\(\theta\)相同,可推广到多个独立分布之和 |
| 退化性质 | \(r=1\)时,退化为几何分布\(G(\theta)\) | 仅\(r=1\)时具备无记忆性,\(r>1\)时无记忆性不成立 |
| 与负二项分布的关系 | 令\(Y=X-r\),则\(Y\)服从负二项分布(失败次数形式),\(P(Y=k)=\binom{k+r-1}{r-1}\theta^r(1-\theta)^k, k\geq0\) | 二者线性等价,仅参数化形式不同 |
| 核心应用场景 | 质量抽样检验、可靠性工程、排队论、生物统计、金融风险管理 | 是离散型等待时间、计数数据建模的核心基础分布 |
负二项分布详细讲解与严格推导证明
各位同学,今天我们系统讲解负二项分布,它是帕斯卡分布的等价参数化形式,是离散型计数数据建模的核心分布,也是解决“过离散计数数据”问题的关键工具。我们将延续一贯的讲解逻辑,从定义、PMF推导、核心分解、数字特征、性质证明到应用场景,完整拆解该分布的全部内容,覆盖教材中所有公式的严格证明与深层含义。
一、基础定义与核心概念澄清
1. 严格公理化定义
设\((\Omega, \mathcal{F}, P)\)为概率空间,若随机变量\(Y \sim PA(r,\theta)\)(帕斯卡分布,描述\(r\)次成功所需的总试验次数),则定义
称\(X\)服从参数为\(r,\theta\)的负二项分布,常用记号为\(X \sim NB(r,\theta)\)。
- 物理意义:\(X\)表示在独立重复伯努利试验中,恰好取得\(r\)次成功时,所经历的失败总次数;
- 支撑集:\(\{0,1,2,\dots\}\)(所有非负整数),与帕斯卡分布的支撑集\(\{r,r+1,\dots\}\)形成线性对应。
2. 核心概念澄清
-
与帕斯卡分布的关系:负二项分布与帕斯卡分布是线性等价的,仅参数化视角不同:
- 帕斯卡分布:固定成功次数\(r\),统计总试验次数\(Y\);
- 负二项分布:固定成功次数\(r\),统计总失败次数\(X=Y-r\)。
二者可通过线性变换相互转换,所有性质完全兼容。
-
名称的由来:负二项分布的PMF恰好是负二项式定理的通项。负二项式定理指出,对任意实数\(r>0\)、\(|x|<1\),有:
\[(1-x)^{-r} = \sum_{i=0}^\infty \binom{r+i-1}{i} x^i \]令\(x=1-\theta\),代入后可直接验证PMF的规范性,因此得名“负二项分布”。
-
与几何分布的关系:当\(r=1\)时,负二项分布\(NB(1,\theta)\)退化为几何分布的失败次数形式,对应教材性质(1):若\(X \sim NB(1,\theta)\),则\(X+1 \sim G(\theta)\)(几何分布的总试验次数形式)。
-
广义与狭义的区别:教材中\(r\)为正整数(狭义负二项分布),实际应用中\(r\)可推广为正实数(广义负二项分布),此时组合数通过Γ函数表示为\(\binom{r+i-1}{i} = \frac{\Gamma(r+i)}{\Gamma(r)i!}\),仍满足分布的所有性质,应用范围更广。
二、概率质量函数(PMF)的严格推导与合法性验证
1. PMF的严格推导
基于负二项分布与帕斯卡分布的线性关系,我们直接推导PMF:
事件\(\{X=i\}\)(\(r\)次成功前恰好失败\(i\)次)等价于事件\(\{Y=i+r\}\)(\(r\)次成功的总试验次数为\(i+r\))。
帕斯卡分布的PMF为:
将\(k=i+r\)代入上式,得到:
根据组合数的对称性\(\binom{n}{k}=\binom{n}{n-k}\),\(\binom{i+r-1}{r-1}=\binom{i+r-1}{i}\),因此PMF可写为教材中的标准形式:
2. PMF的合法性验证
合法的PMF必须满足非负性和规范性,我们分别严格验证:
-
非负性:对任意\(i \geq 0\),组合数\(\binom{r+i-1}{i} \geq 0\),\(\theta \in (0,1)\)故\(\theta^r > 0\),\((1-\theta)^i \geq 0\),因此\(P(X=i) \geq 0\)恒成立,满足非负性。
-
规范性:需证明无穷级数求和\(\sum_{i=0}^\infty P(X=i) = 1\),利用负二项式定理:
\[\begin{align*} \sum_{i=0}^\infty P(X=i) &= \sum_{i=0}^\infty \binom{r+i-1}{i} \theta^r (1-\theta)^i \\ &= \theta^r \sum_{i=0}^\infty \binom{r+i-1}{i} (1-\theta)^i \\ &= \theta^r \cdot \left[ 1 - (1-\theta) \right]^{-r} \\ &= \theta^r \cdot \theta^{-r} = 1 \end{align*} \]完全满足规范性,是合法的概率质量函数。
三、核心分解:独立同分布单元的和
教材中给出的分解式是推导负二项分布所有性质的核心工具,我们先明确定义,再说明其深层意义。
1. 分解式的严格定义
若\(X \sim NB(r,\theta)\),则\(X\)可以表示为\(r\)个独立同分布的基础负二项分布随机变量之和,即:
其中\(X_k\)的定义为:第\(k-1\)次成功后,到第\(k\)次成功之间所经历的失败次数。
由于伯努利试验具有独立性和无记忆性,\(X_1,X_2,\dots,X_r\)相互独立,且每个\(X_k \sim NB(1,\theta)\)(\(r=1\)的负二项分布)。
2. 分解式的核心意义
- 简化推导:负二项分布的期望、方差、特征函数、可加性等所有性质,都可以通过基础单元\(NB(1,\theta)\)的对应性质直接推导,无需复杂的无穷级数求和;
- 理论衔接:建立了单次成功与多次成功的数学联系,是更新过程、计数过程建模的核心基础。
四、核心数字特征的严格推导
我们将通过分解法(优先)和直接定义法,完整推导负二项分布的期望与方差,并验证教材中给出的方差-期望等价式。
前置知识:基础单元\(NB(1,\theta)\)的数字特征
\(X_k \sim NB(1,\theta)\)的PMF为\(P(X_k=i)=\theta(1-\theta)^i, \ i \geq 0\),其核心数字特征为:
- 数学期望:\(E(X_k) = \frac{1-\theta}{\theta} = \theta^{-1}(1-\theta)\)
- 方差:\(\text{Var}(X_k) = \frac{1-\theta}{\theta^2} = \theta^{-2}(1-\theta)\)
1. 数学期望\(E(X) = r\theta^{-1}(1-\theta)\)的严格推导
方法1:分解法(期望的线性性)
期望具有线性性:对任意随机变量\(X_1,\dots,X_r\),无论是否独立,都有\(E\left( \sum_{k=1}^r X_k \right) = \sum_{k=1}^r E(X_k)\)。
代入基础单元的期望,直接得到:
方法2:直接定义法(负二项式定理)
根据离散型随机变量期望的定义:
利用组合恒等式\(i\binom{r+i-1}{i} = r\binom{r+i}{i+1}\),结合负二项式定理,最终可得到与分解法完全一致的结果,验证了结论的正确性。
2. 方差\(\text{Var}(X) = r\theta^{-2}(1-\theta)\)的严格推导
方差的核心定义为\(\text{Var}(X) = E\left[ (X - E(X))^2 \right]\),对于相互独立的随机变量,方差具有可加性:\(\text{Var}\left( \sum_{k=1}^r X_k \right) = \sum_{k=1}^r \text{Var}(X_k)\)。
方法1:分解法(独立随机变量的方差可加性)
由于\(X_1,X_2,\dots,X_r\)相互独立,代入基础单元的方差,直接得到:
3. 方差-期望等价式的严格证明
教材中给出了方差与期望的等价关系:
严格证明:将\(\mu\)代入等式右侧,化简验证:
等式成立。
核心意义:该式表明负二项分布的方差恒大于期望(\(r^{-1}\mu^2>0\)),即具有过离散性。而泊松分布的方差等于期望,因此负二项分布是拟合过离散计数数据的核心工具,比泊松分布更具稳健性。
五、特征函数的严格推导
特征函数是研究随机变量分布的核心工具,定义为\(\varphi(t) = E\left[ e^{itX} \right]\),其中\(i\)为虚数单位,\(t \in \mathbb{R}\)。
对于独立随机变量之和,和的特征函数等于各变量特征函数的乘积。基础单元\(X_k \sim NB(1,\theta)\)的特征函数为:
(等比级数收敛条件:\(|q e^{it}|=q<1\),恒成立)
因此负二项分布的特征函数为\(r\)个独立单元特征函数的乘积:
与教材给出的公式完全一致。
六、核心性质的严格证明
1. 与几何分布的等价性(教材性质1)
定理:若\(X \sim NB(1,\theta)\),则\(T=X+1 \sim G(\theta)\)(几何分布)。
严格证明:
\(X \sim NB(1,\theta)\)的PMF为\(P(X=i)=\theta(1-\theta)^i, \ i \geq 0\)。
\(T=X+1\)的支撑集为\(\{1,2,3,\dots\}\),其PMF为:
该式恰好是几何分布\(G(\theta)\)的标准PMF,因此\(T \sim G(\theta)\),得证。
2. 可加性(教材性质4)
定理:若\(X_1 \sim NB(r_1, \theta)\),\(X_2 \sim NB(r_2, \theta)\),且\(X_1\)与\(X_2\)相互独立,则
严格证明(特征函数法):
- \(X_1\)的特征函数为\(\varphi_1(t) = \theta^{r_1} \left( 1 - q e^{it} \right)^{-r_1}\);
- \(X_2\)的特征函数为\(\varphi_2(t) = \theta^{r_2} \left( 1 - q e^{it} \right)^{-r_2}\);
- 由于\(X_1\)与\(X_2\)独立,\(X_1+X_2\)的特征函数为:\[\varphi(t) = \varphi_1(t) \cdot \varphi_2(t) = \theta^{r_1+r_2} \left( 1 - q e^{it} \right)^{-(r_1+r_2)} \]
- 该特征函数恰好是参数为\(r_1+r_2, \theta\)的负二项分布的特征函数,根据特征函数的唯一性定理,\(X_1 + X_2 \sim NB(r_1 + r_2, \theta)\),得证。
补充说明:可加性要求两个负二项分布的单次成功概率\(\theta\)相同,若\(\theta\)不同,可加性不成立。该性质可推广到任意\(k\)个独立同\(\theta\)的负二项分布之和。
3. 累积分布与正则化不完全β函数的关系(教材性质5)
定理:负二项分布的累积分布函数满足
其中\(I_\xi(p,q)\)为正则化不完全β函数。
证明思路:
事件\(\{X \leq i\}\)(\(r\)次成功前失败次数不超过\(i\))等价于事件\(\{在i+r次伯努利试验中,成功次数至少为r\}\)。
根据二项分布与不完全β函数的等价关系,二项分布\(Bin(i+r,\theta)\)的右尾概率满足:
因此\(P(X \leq i) = I_\theta(r, i+1)\),得证。
该性质是负二项分布参数区间估计、精确假设检验的核心理论基础。
七、典型应用场景
- 过离散计数数据建模:生物统计中的菌落数、寄生虫数量,流行病学中的发病次数,保险精算中的索赔次数,这类数据的方差大于期望,不适合用泊松分布,负二项分布是首选模型。
- 广义线性模型:负二项回归是广义线性模型的核心分支,用于拟合计数型响应变量,解决泊松回归的过离散问题,广泛应用于计量经济学、生物统计、公共卫生领域。
- 可靠性工程:描述系统出现\(r\)次故障前的正常运行次数、冗余系统的寿命分布,是可靠性评估的核心工具。
- 生态学与空间统计:描述物种的空间聚集分布、个体数量的计数特征,是生态建模的经典分布。
- 质量控制与抽样检验:生产过程中出现\(r\)个次品前的合格品数量、验收抽样方案的设计,均可用负二项分布建模。
八、负二项分布核心信息归纳总结表
| 项目 | 核心内容 | 备注与说明 |
|---|---|---|
| 分布全称 | 负二项分布 | 离散型计数分布,帕斯卡分布的失败次数参数化形式 |
| 分布记号 | \(X \sim NB(r,\theta)\) | \(r\)为目标成功次数(正整数,可推广为正实数),\(\theta\)为单次成功概率,\(\theta \in (0,1)\) |
| 支撑集 | \(\{0,1,2,\dots\}\) | 所有非负整数,对应\(r\)次成功前的失败次数 |
| 概率质量函数(PMF) | $nb(i | r,\theta) = \binom{r+i-1}{i} \theta^r (1-\theta)^i, \quad i \geq 0$ |
| 核心分解 | \(X = \sum_{k=1}^r X_k\),\(X_k\)独立同分布于\(NB(1,\theta)\) | 所有性质的推导基础,建立与几何分布的联系 |
| 数学期望\(E(X)\) | \(\frac{r(1-\theta)}{\theta} = r\theta^{-1}(1-\theta)\) | 与成功次数\(r\)成正比,与单次成功概率\(\theta\)成反比 |
| 方差\(\text{Var}(X)\) | \(\frac{r(1-\theta)}{\theta^2} = r\theta^{-2}(1-\theta)\) | 恒大于期望,具有过离散性,是区别于泊松分布的核心特征 |
| 方差-期望等价式 | \(\text{Var}(X) = \mu + r^{-1}\mu^2\),其中\(\mu=E(X)\) | 用于过离散性检验与模型参数化 |
| 特征函数\(\varphi(t)\) | \(\theta^r \left( 1 - (1-\theta)e^{it} \right)^{-r}\) | 由独立单元的特征函数乘积得到 |
| 可加性 | 若\(X_1 \sim NB(r_1,\theta), X_2 \sim NB(r_2,\theta)\)且独立,则\(X_1+X_2 \sim NB(r_1+r_2,\theta)\) | 要求单次成功概率\(\theta\)相同,可推广到多个独立分布之和 |
| 与其他分布的关系 | 1. \(r=1\)时,\(X+1 \sim G(\theta)\)(几何分布) 2. \(X=Y-r\),\(Y \sim PA(r,\theta)\)(帕斯卡分布) 3. \(r \to \infty, r(1-\theta) \to \lambda\)时,收敛于泊松分布\(P(\lambda)\) |
与经典离散分布形成完整的理论体系 |
| 累积分布关系 | \(P(X \leq i) = I_\theta(r, i+1)\) | 与正则化不完全β函数等价,用于精确统计推断 |
| 核心应用场景 | 过离散计数数据建模、负二项回归、可靠性工程、生态统计、质量控制、保险精算 | 是计数数据统计建模的核心基础分布 |
超几何分布详细讲解与严格推导证明
各位同学,今天我们系统讲解超几何分布,它是有限总体不放回抽样的核心概率模型,是古典概型的经典应用,也是抽样调查、质量检验、生物统计等领域的基础工具。我们将延续一贯的讲解逻辑,从定义、PMF推导、数字特征严格证明、核心性质解析到应用场景,完整拆解该分布的全部内容,覆盖教材中所有公式的深层含义与严格推导。
一、基础定义与核心概念澄清
1. 严格公理化定义
设有限总体包含\(N\)个个体,其中\(M\)个为“目标个体(成功类,如次品、阳性个体)”,剩余\(N-M\)个为“非目标个体(失败类)”。从该总体中不放回随机抽取\(n\)个个体,记\(X\)为抽取的\(n\)个个体中目标个体的数量,则称随机变量\(X\)服从参数为\((n,N,M)\)的超几何分布,常用记号为\(X \sim HG(n,N,M)\)。
2. 核心概念澄清
-
参数的物理意义:
- \(N\):总体容量,即总体中个体的总数;
- \(M\):总体中目标类个体的总数;
- \(n\):不放回抽样的样本量,即抽取的个体总数。
三个参数均为正整数,且满足\(0 \leq M \leq N\),\(0 < n \leq N\)。
-
支撑集(取值范围):
\(X\)的可能取值\(i\)需满足两个约束:- 抽取的目标个体数不能超过总体中的目标总数,也不能超过样本量:\(i \leq \min(n, M)\);
- 抽取的非目标个体数\(n-i\)不能超过总体中的非目标总数\(N-M\),即\(n-i \leq N-M\),变形得\(i \geq n - (N-M) = \max(0, n+M-N)\)。
因此\(X\)的支撑集为:\(i = \max(0, n+M-N), \dots, \min(n, M)\)。
例:\(N=10, M=3, n=8\),则\(i \geq 8+3-10=1\),\(i \leq \min(8,3)=3\),即\(X\)只能取1,2,3,符合直觉:抽8个产品,总体只有7个正品,因此至少抽到1个次品。
-
与二项分布的核心区别:
特征 超几何分布 二项分布 抽样方式 有限总体不放回抽样,各次试验不独立 无限总体/有放回抽样,各次试验独立 成功概率 每次抽取的成功概率随抽样变化 每次试验的成功概率固定不变 核心场景 小总体、抽样比例高的场景 大总体、抽样比例低的场景 -
名称的由来:超几何分布的概率质量函数是超几何级数的通项系数,因此得名超几何分布。
二、概率质量函数(PMF)的严格推导与合法性验证
1. PMF的严格推导(古典概型法)
超几何分布的抽样是不放回简单随机抽样,所有可能的样本是等可能的,因此用古典概型推导PMF:
-
样本空间的总基本事件数:从\(N\)个个体中不放回抽取\(n\)个,不考虑抽取顺序,总共有\(\binom{N}{n}\)种不同的抽取方式,每种方式的概率相等。
-
事件\(\{X=i\}\)的基本事件数:要使抽取的\(n\)个个体中恰好有\(i\)个目标个体,需分两步完成:
- 第一步:从\(M\)个目标个体中抽取\(i\)个,共有\(\binom{M}{i}\)种方式;
- 第二步:从\(N-M\)个非目标个体中抽取剩余的\(n-i\)个,共有\(\binom{N-M}{n-i}\)种方式。
根据分步乘法计数原理,事件\(\{X=i\}\)包含的基本事件数为\(\binom{M}{i} \cdot \binom{N-M}{n-i}\)。
-
古典概型的概率计算:
事件的概率等于事件包含的基本事件数除以样本空间总基本事件数,因此:\[P(X = i) \triangleq h(i|n;N,M) = \frac{\binom{M}{i} \binom{N-M}{n-i}}{\binom{N}{n}} \]其中\(i\)的取值范围为\(\max(0, n+M-N) \leq i \leq \min(n, M)\),超出该范围时\(P(X=i)=0\),与教材给出的公式完全一致。
2. PMF的合法性验证
合法的PMF必须满足非负性和规范性,我们分别严格验证:
-
非负性:
对所有合法的\(i\),组合数\(\binom{M}{i} \geq 0\),\(\binom{N-M}{n-i} \geq 0\),\(\binom{N}{n} > 0\),因此\(P(X=i) \geq 0\)恒成立,满足非负性。 -
规范性(全概率和为1):
需证明\(\sum_{i} P(X=i) = 1\),这里用到范德蒙恒等式:
对任意非负整数\(N,M,n\),有\[\sum_{i=0}^{\min(n,M)} \binom{M}{i} \binom{N-M}{n-i} = \binom{N}{n} \]范德蒙恒等式的组合意义:从包含\(M\)个男生、\(N-M\)个女生的\(N\)人中选\(n\)人,总选法等于“选\(i\)个男生、\(n-i\)个女生”的选法对所有\(i\)求和,与直接从\(N\)人中选\(n\)人的选法相等。
因此,对所有合法的\(i\)求和:
\[\sum_{i} P(X=i) = \sum_{i} \frac{\binom{M}{i} \binom{N-M}{n-i}}{\binom{N}{n}} = \frac{1}{\binom{N}{n}} \cdot \binom{N}{n} = 1 \]完全满足规范性,是合法的概率质量函数。
三、核心数字特征的严格推导
1. 数学期望\(E(X) = n \cdot \frac{M}{N}\)的严格推导
我们用示性函数分解法(最简洁,无需复杂组合求和)推导,该方法的核心是利用期望的线性性(无需随机变量独立)。
步骤1:构造示性函数分解
将\(X\)分解为\(n\)个示性函数的和:
其中\(X_k\)为第\(k\)次抽取的示性函数,定义为:
步骤2:计算单个示性函数的期望
对于不放回简单随机抽样,每一次抽取到目标个体的概率都是相等的,均为\(\frac{M}{N}\)。
证明:第\(k\)次抽取时,所有\(N\)个个体在第\(k\)次被抽到的概率完全相等,因此抽到目标个体的概率为目标个体数除以总体数,即\(P(X_k=1) = \frac{M}{N}\),\(P(X_k=0) = 1 - \frac{M}{N}\)。
因此单个示性函数的期望为:
步骤3:利用期望的线性性求和
期望的线性性对任意随机变量均成立,无论是否独立,因此:
与教材给出的期望公式完全一致。
直观意义:期望等于样本量乘以总体的目标个体比例(次品率),与二项分布的期望\(n\theta\)形式一致,其中\(\theta = \frac{M}{N}\)为总体的成功概率。
2. 方差\(\text{Var}(X) = n \cdot \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{N-n}{N-1}\)的严格推导
方差的核心定义为\(\text{Var}(X) = E\left[ (X - E(X))^2 \right]\),对于多个随机变量之和,方差公式为:
由于不放回抽样的\(X_k\)与\(X_l\)不独立,因此需要计算协方差项,这是超几何分布方差与二项分布的核心区别。
步骤1:计算单个示性函数的方差
\(X_k\)服从两点分布,成功概率\(\theta = \frac{M}{N}\),因此方差为:
步骤2:计算两个不同示性函数的协方差\(\text{Cov}(X_k, X_l)\)(\(k \neq l\))
协方差的计算公式为:\(\text{Cov}(X_k, X_l) = E(X_k X_l) - E(X_k)E(X_l)\)。
首先计算\(E(X_k X_l)\):\(X_k X_l=1\)当且仅当第\(k\)次和第\(l\)次都抽到目标个体,因此:
- 第\(k\)次抽到目标个体的概率为\(\frac{M}{N}\);
- 第\(k\)次抽到后,总体剩余\(N-1\)个个体,其中\(M-1\)个目标个体,因此条件概率\(P(X_l=1 | X_k=1) = \frac{M-1}{N-1}\)。
因此:
代入协方差公式:
关键结论:协方差为负数,说明不放回抽样中,两次抽取的结果是负相关的:第一次抽到目标个体,第二次抽到的概率会降低,符合不放回抽样的直觉。
步骤3:代入方差公式求和
首先,方差的求和项分为两部分:
- 单个方差的和:\(\sum_{k=1}^n \text{Var}(X_k) = n \cdot \frac{M}{N} \cdot \frac{N-M}{N}\);
- 协方差的和:共有\(\binom{n}{2} = \frac{n(n-1)}{2}\)个两两协方差项,因此:\[2\sum_{1 \leq k < l \leq n} \text{Cov}(X_k, X_l) = 2 \cdot \frac{n(n-1)}{2} \cdot \left( - \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{1}{N-1} \right) = - n(n-1) \cdot \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{1}{N-1} \]
将两部分合并,提取公因子\(n \cdot \frac{M}{N} \cdot \frac{N-M}{N}\):
与教材给出的方差公式完全一致。
3. 有限总体校正因子的核心意义
方差公式中的\(\frac{N-n}{N-1}\)称为有限总体校正因子(Finite Population Correction, FPC),是超几何分布与二项分布方差的核心区别:
- 二项分布的方差为\(n\theta(1-\theta) = n \cdot \frac{M}{N} \cdot \frac{N-M}{N}\),超几何分布的方差是二项分布方差乘以校正因子\(\frac{N-n}{N-1}\);
- 由于\(\frac{N-n}{N-1} < 1\)(\(n>1\)时),因此超几何分布的方差恒小于对应二项分布的方差,这是因为不放回抽样的负相关性降低了样本的波动;
- 当\(N \to \infty\)时,\(\frac{N-n}{N-1} \to 1\),校正因子趋近于1,超几何分布的方差趋近于二项分布的方差,这就是教材中性质(2)的理论基础。
四、核心性质的严格证明与解析
1. 与二项分布的渐近近似(教材性质2)
定理:当总体容量\(N \to \infty\),且抽样比例\(\frac{n}{N} \to 0\)时,超几何分布\(HG(n,N,M)\)渐近于二项分布\(b(n, \frac{M}{N})\),即
直观证明:
当\(N\)极大,抽样比例\(\frac{n}{N}\)极小时,不放回抽样对总体的影响可以忽略不计,每次抽取的成功概率几乎不变,各次抽取近似独立,因此不放回抽样近似于有放回抽样,超几何分布近似于二项分布。
严格推导(极限计算):
将超几何分布的PMF展开:
当\(N \to \infty\),\(\frac{M}{N} \to \theta\)(固定),\(\frac{n}{N} \to 0\)时,对固定的\(i,n\),有:
- \(\frac{M - k}{N - k} \to \theta\),\(\frac{N-M - l}{N - i - l} \to 1-\theta\);
- 所有乘积项的极限为\(\theta^i (1-\theta)^{n-i}\)。
因此:
得证。
实用准则:实际应用中,当\(\frac{n}{N} \leq 0.05\)(抽样比例不超过5%)时,即可用二项分布近似超几何分布,计算误差可忽略不计。
2. 补充核心性质
- 对称性:若\(X \sim HG(n,N,M)\),则\(Y = n - X \sim HG(n,N,N-M)\),即样本中的非目标个体数服从参数为\((n,N,N-M)\)的超几何分布,该性质可用于简化计算。
- 可加性:若\(X_1 \sim HG(n_1,N,M)\),\(X_2 \sim HG(n_2,N,M)\),且\(X_1\)与\(X_2\)独立(从同一总体中独立抽取两个样本),则\(X_1+X_2\)不服从超几何分布,超几何分布不具备简单可加性,这是与二项分布、负二项分布的重要区别。
五、典型应用场景
- 产品质量检验与验收抽样:工业生产中,从一批产品中不放回抽取样本,统计次品数,判断批次是否合格,是超几何分布最经典的应用场景。
- 抽样调查:人口普查、市场调查中,从有限总体中不放回抽取样本,统计目标特征的数量,是抽样调查理论的核心概率模型。
- 生物统计与生态学:捕获-再捕获(标记-重捕)模型,用于估计野生动物的种群数量,核心原理基于超几何分布。
- 彩票与概率游戏:乐透型彩票的中奖概率计算,本质是超几何分布的应用,例如从N个号码中选n个,命中i个中奖号码的概率。
- 审计与财务核查:从财务凭证总体中不放回抽取样本,统计错误凭证的数量,用于评估总体的错误率。
六、超几何分布核心信息归纳总结表
| 项目 | 核心内容 | 备注与说明 |
|---|---|---|
| 分布全称 | 超几何分布 | 有限总体不放回抽样的离散型概率分布 |
| 分布记号 | \(X \sim HG(n,N,M)\) | 三个参数:\(n\)为样本量,\(N\)为总体容量,\(M\)为总体目标个体数 |
| 支撑集 | \(i = \max(0, n+M-N), \dots, \min(n, M)\) | 超出范围的概率为0,需满足抽样的实际约束 |
| 概率质量函数(PMF) | $h(i | n;N,M) = \frac{\binom{M}{i} \binom{N-M}{n-i}}{\binom{N}{n}}$ |
| 数学期望\(E(X)\) | \(n \cdot \frac{M}{N}\) | 等于样本量乘以总体目标比例,与二项分布期望形式一致 |
| 方差\(\text{Var}(X)\) | \(n \cdot \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{N-n}{N-1}\) | 含有限总体校正因子\(\frac{N-n}{N-1}\),恒小于对应二项分布的方差 |
| 与二项分布的关系 | 当\(\frac{n}{N} \leq 0.05\)时,\(HG(n,N,M) \approx b(n, \frac{M}{N})\) | 大总体、低抽样比例下,不放回抽样近似有放回抽样 |
| 核心特征 | 各次抽样不独立,成功概率随抽样变化,方差存在有限总体校正 | 与二项分布的核心区别 |
| 典型应用场景 | 产品质量验收、抽样调查、捕获-再捕获模型、彩票中奖概率计算、财务审计 | 有限总体抽样的核心概率模型 |
泊松(Poisson)分布详细讲解与严格推导证明
泊松分布由法国数学家西莫恩·德尼·泊松于1837年提出,是概率论中最重要的离散型分布之一,核心用于描述单位时间/空间内稀有事件发生的次数,是计数数据建模的基础,也是泊松随机过程、广义线性模型的核心理论支撑。我们将从定义、PMF合法性、数字特征、核心性质证明到应用场景,完整拆解该分布的全部内容。
一、基础定义与核心概念澄清
1. 严格公理化定义
设\((\Omega, \mathcal{F}, P)\)为概率空间,\(X\)是定义在该空间上的随机变量。若存在参数\(\lambda > 0\)(强度参数),使得\(X\)的支撑集为全体非负整数\(\{0,1,2,\dots\}\),且对任意非负整数\(i\),满足
则称随机变量\(X\)服从参数为\(\lambda\)的泊松分布,常用记号为\(X \sim P(\lambda)\),也可记为\(X \sim \text{Poisson}(\lambda)\)。
2. 核心概念澄清
- 术语纠正:教材中提到的“密度函数”,对离散型随机变量而言,严格名称为概率质量函数(PMF);只有连续型随机变量才有概率密度函数(PDF),后续统一使用严格学术术语。
- 参数\(\lambda\)的物理意义:\(\lambda\)是泊松分布的强度参数,代表单位时间/单位空间内,目标事件发生的平均次数,是分布的位置与尺度核心参数。
- 分布的核心来源:泊松分布是二项分布的极限分布(泊松定理):当二项分布\(b(n,\theta)\)满足\(n \to \infty\),\(\theta \to 0\),且\(n\theta \to \lambda\)(常数)时,二项分布收敛于泊松分布\(P(\lambda)\),这也是泊松分布用于稀有事件建模的理论基础。
- 标志性特征:泊松分布的期望与方差相等,均为\(\lambda\),这是检验数据是否符合泊松分布的核心依据。
二、概率质量函数(PMF)的合法性验证
合法的PMF必须满足非负性和规范性,我们分别严格验证:
-
非负性
对任意非负整数\(i\),\(e^{-\lambda} > 0\)(\(\lambda>0\)),\(\lambda^i \geq 0\),\(i! > 0\),因此\(p(i|\lambda) = \frac{e^{-\lambda} \lambda^i}{i!} \geq 0\)恒成立,满足非负性。 -
规范性(全概率和为1)
需证明无穷级数求和\(\sum_{i=0}^\infty p(i|\lambda) = 1\),这里用到指数函数的泰勒展开式:对任意实数\(x\),\(e^x = \sum_{i=0}^\infty \frac{x^i}{i!}\)。将\(x=\lambda\)代入,对PMF求和:
\[\sum_{i=0}^\infty p(i|\lambda) = \sum_{i=0}^\infty \frac{e^{-\lambda} \lambda^i}{i!} = e^{-\lambda} \cdot \sum_{i=0}^\infty \frac{\lambda^i}{i!} = e^{-\lambda} \cdot e^{\lambda} = 1 \]完全满足规范性,是合法的概率质量函数。
三、核心数字特征的严格推导
1. 数学期望\(E(X) = \lambda\)的严格推导
离散型随机变量的数学期望定义为:\(E(X) = \sum_{i=0}^\infty i \cdot p(i|\lambda)\),代入泊松分布的PMF:
- 当\(i=0\)时,求和项为0,求和下限可改为\(i=1\);
- 利用阶乘性质\(i! = i \cdot (i-1)!\),约去分子的\(i\),提取公因子\(e^{-\lambda}\lambda\):\[E(X) = e^{-\lambda}\lambda \sum_{i=1}^\infty \frac{\lambda^{i-1}}{(i-1)!} \]
- 做变量替换\(k = i-1\),求和范围变为\(k=0\)到\(k=\infty\),求和项为指数函数的泰勒展开\(\sum_{k=0}^\infty \frac{\lambda^k}{k!} = e^{\lambda}\),代入得:\[E(X) = e^{-\lambda}\lambda \cdot e^{\lambda} = \lambda \]
2. 方差\(\text{Var}(X) = \lambda\)的严格推导
方差的简化计算公式为:\(\text{Var}(X) = E(X^2) - [E(X)]^2\),利用恒等式\(X^2 = X(X-1) + X\),先计算\(E\left[ X(X-1) \right]\)。
步骤1:计算\(E\left[ X(X-1) \right]\)
- 当\(i=0\)和\(i=1\)时,求和项为0,求和下限改为\(i=2\);
- 利用阶乘性质\(i! = i(i-1) \cdot (i-2)!\),约去分子的\(i(i-1)\),提取公因子\(e^{-\lambda}\lambda^2\):\[E\left[ X(X-1) \right] = e^{-\lambda}\lambda^2 \sum_{i=2}^\infty \frac{\lambda^{i-2}}{(i-2)!} \]
- 做变量替换\(k = i-2\),求和项为指数函数的泰勒展开,结果为\(e^\lambda\),代入得:\[E\left[ X(X-1) \right] = e^{-\lambda}\lambda^2 \cdot e^{\lambda} = \lambda^2 \]
步骤2:计算方差
代入方差公式,结合\([E(X)]^2 = \lambda^2\):
泊松分布的期望与方差相等,均为强度参数\(\lambda\)。
3. 特征函数的严格推导
特征函数定义为\(\varphi(t) = E\left[ e^{itX} \right]\)(\(i\)为虚数单位,\(t \in \mathbb{R}\)),代入PMF:
利用指数函数的泰勒展开,\(\sum_{i=0}^\infty \frac{(\lambda e^{it})^i}{i!} = e^{\lambda e^{it}}\),因此:
与教材给出的特征函数完全一致,是后续证明可加性、渐近正态性的核心工具。
四、核心性质的严格证明与解析
性质1:期望、方差与特征函数
已在第三部分完成严格推导,核心结论为:
- 特征函数:\(\varphi(t) = e^{-\lambda(1 - e^{it})}\)
- 数学期望:\(E(X) = \lambda\)
- 方差:\(\text{Var}(X) = \lambda\),满足\(\text{Var}(X) = E(X)\)
性质2:分布函数与上不完全Γ函数的等价关系
教材给出:泊松分布的累积分布函数\(F(i) = P(X \leq i)\)可表示为
其中\(Z\)服从形状参数为\(i+1\)、率参数为1的伽马分布\(\Gamma(1, i+1)\)。
预备知识
- 完整Γ函数:\(\Gamma(s) = \int_0^\infty e^{-x} x^{s-1} dx\),对正整数\(i\),\(\Gamma(i+1) = i!\);
- 上不完全Γ函数:\(\Gamma(s, x) = \int_x^\infty e^{-t} t^{s-1} dt\);
- 正则化上不完全Γ函数:\(Q(s, x) = \frac{\Gamma(s, x)}{\Gamma(s)}\),即教材中记为\(\Gamma(\lambda, i+1)\)的项。
严格证明(数学归纳法+分部积分)
- 基础情形\(i=0\):
左边\(P(X \leq 0) = e^{-\lambda}\);右边\(\frac{1}{\Gamma(1)} \int_\lambda^\infty e^{-x} dx = e^{-\lambda}\),左右相等。 - 递推步骤:假设对\(i-1\)成立,对\(i\)的情形,对积分做分部积分(令\(u=x^i\),\(dv=e^{-x}dx\)):\[\int_\lambda^\infty e^{-x} x^i dx = \lambda^i e^{-\lambda} + i \int_\lambda^\infty e^{-x} x^{i-1} dx \]两边除以\(\Gamma(i+1)=i!\),结合归纳假设,可得:\[\frac{1}{\Gamma(i+1)} \int_\lambda^\infty e^{-x} x^i dx = P(X=i) + P(X \leq i-1) = P(X \leq i) \]由数学归纳法,等式对所有非负整数\(i\)成立。
该性质建立了离散型泊松分布与连续型伽马分布的深刻联系,是泊松分布参数区间估计、精确假设检验的核心基础。
性质3:PMF的单调性与众数
定理:泊松分布的PMF满足:
- 当\(x < \lambda\)时,\(p(x,\lambda)\)随\(x\)增大严格递增;
- 当\(x > \lambda\)时,\(p(x,\lambda)\)随\(x\)增大严格递减;
- 众数:若\(\lambda\)不是整数,众数为\(\lfloor \lambda \rfloor\)(向下取整);若\(\lambda\)是整数,众数为\(\lambda\)和\(\lambda-1\)。
严格证明
对任意正整数\(x \geq 1\),计算相邻项的比值:
- 当\(\frac{\lambda}{x} > 1\)(\(x < \lambda\))时,\(p(x,\lambda) > p(x-1,\lambda)\),PMF递增;
- 当\(\frac{\lambda}{x} < 1\)(\(x > \lambda\))时,\(p(x,\lambda) < p(x-1,\lambda)\),PMF递减;
- 当\(\frac{\lambda}{x} = 1\)(\(\lambda\)为整数)时,\(p(x,\lambda) = p(x-1,\lambda)\),两个点概率相等且最大。
性质4:可加性
定理:若\(X_1 \sim P(\lambda_1)\),\(X_2 \sim P(\lambda_2)\),且\(X_1\)与\(X_2\)相互独立,则
严格证明(特征函数法)
- \(X_1\)的特征函数为\(\varphi_1(t) = e^{-\lambda_1(1 - e^{it})}\),\(X_2\)的特征函数为\(\varphi_2(t) = e^{-\lambda_2(1 - e^{it})}\);
- 独立随机变量和的特征函数等于各特征函数的乘积:\[\varphi_{X_1+X_2}(t) = \varphi_1(t) \cdot \varphi_2(t) = e^{-(\lambda_1+\lambda_2)(1 - e^{it})} \]
- 该特征函数恰好是参数为\(\lambda_1+\lambda_2\)的泊松分布的特征函数,由特征函数唯一性定理,\(X_1 + X_2 \sim P(\lambda_1 + \lambda_2)\)。
该性质可推广到任意有限个独立泊松随机变量之和。
性质5:条件分布为二项分布
定理:若\(X_1 \sim P(\lambda_1)\),\(X_2 \sim P(\lambda_2)\),且\(X_1\)与\(X_2\)相互独立,则在给定\(X_1 + X_2 = k\)的条件下,\(X_1\)的条件分布为二项分布\(b\left( k, \frac{\lambda_1}{\lambda_1 + \lambda_2} \right)\)。
严格证明
根据条件概率定义:
- 分子:由独立性,\(P(X_1 = i, X_2 = k-i) = \frac{e^{-\lambda_1} \lambda_1^i}{i!} \cdot \frac{e^{-\lambda_2} \lambda_2^{k-i}}{(k-i)!}\);
- 分母:由可加性,\(X_1+X_2 \sim P(\lambda_1+\lambda_2)\),故\(P(X_1+X_2=k) = \frac{e^{-(\lambda_1+\lambda_2)} (\lambda_1+\lambda_2)^k}{k!}\)。
代入化简后可得:
恰好是二项分布的PMF,证明完毕。
性质6:渐近正态性(中心极限定理)
定理:若\(X \sim P(\lambda)\),则标准化后的随机变量\(Y_\lambda = \frac{X - \lambda}{\sqrt{\lambda}}\),当\(\lambda \to +\infty\)时,依分布收敛于标准正态分布\(N(0,1)\)。
严格证明(特征函数法,教材推导详解)
- 写出\(Y_\lambda\)的特征函数:\[\varphi_{Y_\lambda}(t) = E\left[ e^{it \cdot \frac{X - \lambda}{\sqrt{\lambda}}} \right] = \exp\left\{ \lambda(e^{it/\sqrt{\lambda}} - 1) - it\sqrt{\lambda} \right\} \]
- 对\(e^{it/\sqrt{\lambda}}\)做麦克劳林展开(\(\lambda \to +\infty\)时,\(\frac{t}{\sqrt{\lambda}} \to 0\)):\[e^{it/\sqrt{\lambda}} = 1 + \frac{it}{\sqrt{\lambda}} - \frac{t^2}{2\lambda} + o\left( \frac{1}{\lambda} \right) \]
- 代入指数内化简:\[\lambda(e^{it/\sqrt{\lambda}} - 1) - it\sqrt{\lambda} = -\frac{t^2}{2} + o(1) \]
- 取极限:\[\lim_{\lambda \to +\infty} \varphi_{Y_\lambda}(t) = e^{-t^2/2} \]\(e^{-t^2/2}\)是标准正态分布的特征函数,由特征函数连续性定理,\(Y_\lambda\)依分布收敛于\(N(0,1)\)。
实用意义:当\(\lambda \geq 20\)时,可用正态分布\(N(\lambda, \lambda)\)近似泊松分布,大幅简化大\(\lambda\)下的概率计算。
五、典型应用场景
- 稀有事件计数建模:利用泊松定理,对二项分布中\(n\)大、\(\theta\)小的稀有事件(如交通事故、产品缺陷、罕见病发病数),用泊松分布近似计算概率。
- 单位时间/空间的事件计数:呼叫中心的电话呼入次数、网站用户访问量、显微镜下的细菌菌落数、区域内的地震发生次数,这类计数数据的核心建模工具就是泊松分布。
- 随机过程基础:泊松分布是泊松过程的一维分布,是排队论、可靠性工程、金融随机分析中最基础的计数过程。
- 广义线性模型:泊松回归是广义线性模型的核心分支,用于拟合响应变量为计数数据的回归问题,广泛应用于流行病学、计量经济学等领域。
- 统计过程控制:控制图中的c图、u图核心基于泊松分布,用于监控生产过程中的缺陷数、不合格品数。
六、泊松分布核心信息归纳总结表
| 项目 | 核心内容 | 备注与说明 |
|---|---|---|
| 分布全称 | 泊松(Poisson)分布 | 离散型计数分布,稀有事件建模的核心工具 |
| 分布记号 | \(X \sim P(\lambda)\)、\(X \sim \text{Poisson}(\lambda)\) | \(\lambda\)为强度参数,\(\lambda > 0\),代表事件发生的平均次数 |
| 支撑集 | \(\{0,1,2,\dots\}\) | 全体非负整数 |
| 概率质量函数(PMF) | $p(i | \lambda) = \frac{e^{-\lambda} \lambda^i}{i!}, \quad i=0,1,2,\dots$ |
| 数学期望\(E(X)\) | \(\lambda\) | 等于强度参数,代表事件发生的平均次数 |
| 方差\(\text{Var}(X)\) | \(\lambda\) | 与期望相等,是泊松分布的标志性特征 |
| 特征函数\(\varphi(t)\) | \(e^{-\lambda(1 - e^{it})}\) | 用于证明可加性、渐近正态性 |
| PMF单调性与众数 | 1. \(x < \lambda\)时PMF递增,\(x > \lambda\)时递减 2. \(\lambda\)非整数时,众数为\(\lfloor \lambda \rfloor\) 3. \(\lambda\)为整数时,众数为\(\lambda\)和\(\lambda-1\) |
由相邻项比值\(\lambda/x\)与1的大小关系推导 |
| 可加性 | 若\(X_i \sim P(\lambda_i)\)且相互独立,则\(\sum_{i=1}^k X_i \sim P\left( \sum_{i=1}^k \lambda_i \right)\) | 要求变量相互独立,可推广到任意有限个变量 |
| 条件分布性质 | 若\(X_1 \sim P(\lambda_1), X_2 \sim P(\lambda_2)\)独立,则$(X_1 | X_1+X_2=k) \sim b\left(k, \frac{\lambda_1}{\lambda_1+\lambda_2} \right)$ |
| 与其他分布的关系 | 1. 二项分布\(b(n,\theta)\)当\(n\to\infty, n\theta\to\lambda\)时收敛于\(P(\lambda)\) 2. 累积分布函数与上不完全Γ函数等价 3. \(\lambda\to+\infty\)时,渐近于正态分布\(N(\lambda,\lambda)\) |
连接了二项分布、伽马分布、正态分布 |
| 渐近正态性 | \(\frac{X-\lambda}{\sqrt{\lambda}} \xrightarrow{d} N(0,1) \ (\lambda\to+\infty)\) | 泊松分布的中心极限定理,大样本近似的核心 |
| 典型应用场景 | 稀有事件概率计算、计数数据建模、泊松过程、泊松回归、统计过程控制、排队论 | 是计数数据统计分析的核心基础分布 |
多点分布(分类分布)详细讲解与严格推导证明
多点分布也叫分类分布(Categorical Distribution),是两点分布(伯努利分布)在多分类场景下的多元推广,是单次多分类随机试验的标准概率模型,也是多项分布的基础单元,是分类数据统计建模、机器学习多分类任务的核心基础分布。我们将从定义、概率质量函数、数字特征严格推导、核心性质解析到应用场景,完整拆解该分布的全部内容。
一、基础定义与核心概念澄清
1. 严格公理化定义
设\((\Omega, \mathcal{F}, P)\)为概率空间,\(A_1,A_2,\dots,A_k\)为样本空间\(\Omega\)的一个完备划分,即满足:
- 两两互斥:\(A_i \cap A_j = \emptyset, \ \forall i \neq j\);
- 覆盖全集:\(\bigcup_{i=1}^k A_i = \Omega\);
- 概率约束:\(P(A_i) = \pi_i, \ i=1,2,\dots,k\),且\(\sum_{i=1}^k \pi_i = 1\),其中\(\pi_i \geq 0\)。
定义\(k\)维随机向量\(X = (X_1,X_2,\dots,X_k)^T\),其中每个分量\(X_i\)为事件\(A_i\)的示性函数:
显然满足约束\(\sum_{i=1}^k X_i = 1\)(一次试验有且仅有一个类别发生),则称随机向量\(X\)服从参数为\(\pi\)的多点分布,常用记号为\(X \sim MN(1, \pi)\),也可记为\(X \sim \text{Cat}(\pi)\)(分类分布),其中\(\pi = (\pi_1,\pi_2,\dots,\pi_k)^T\)为\(k\)维概率向量。
2. 核心概念澄清
- 与两点分布的关系:当\(k=2\)时,多点分布直接退化为两点分布(伯努利分布)。此时\(A_1=A, A_2=\overline{A}\),\(X_1 \sim b(1,\pi_1)\),\(X_2=1-X_1\),完全与两点分布等价,因此多点分布是两点分布在\(k\)个互斥类别上的多元推广。
- 与多项分布的关系:多点分布是多项分布当试验次数\(n=1\)时的特例,多项分布\(MN(n,\pi)\)描述\(n\)次独立多分类试验的类别计数,其本质是\(n\)个独立同分布的多点分布随机向量的和,与“二项分布是\(n\)个两点分布的和”形成完全对应的理论体系。
- 参数的物理意义:唯一参数\(\pi\)是\(k\)维概率向量,\(\pi_i\)代表单次试验中第\(i\)个类别发生的概率,满足非负性与和为1的约束,是分布的核心特征。
- 随机向量的约束:核心约束\(\sum_{i=1}^k X_i=1\)决定了多点分布的随机向量存在线性依赖,其协方差矩阵为奇异矩阵(秩为\(k-1\)),是该分布的重要代数特征。
二、概率质量函数(PMF)的推导与合法性验证
1. 联合概率质量函数的严格推导
离散型随机向量的联合PMF定义为\(p(x_1,x_2,\dots,x_k) = P(X_1=x_1, X_2=x_2, \dots, X_k=x_k)\)。
对于多点分布,随机向量的合法取值必须满足两个条件:
- 每个分量\(x_i \in \{0,1\}\)(示性函数仅取0或1);
- \(\sum_{i=1}^k x_i = 1\)(一次试验仅有一个类别发生)。
对合法取值,假设第\(m\)个分量\(x_m=1\),其余分量均为0,则事件\(\{X_1=x_1,\dots,X_k=x_k\}\)等价于事件\(A_m\)发生,因此概率为\(\pi_m\)。
我们可以将所有合法取值的概率统一为乘积形式:
验证一致性:当\(x_m=1\)、其余\(x_i=0\)时,\(p(x_1,\dots,x_k) = \pi_m^1 \cdot \prod_{i \neq m} \pi_i^0 = \pi_m\),与定义完全一致。
2. PMF的合法性验证
合法的联合PMF必须满足非负性和规范性,我们分别严格验证:
- 非负性:对所有合法取值,\(\pi_i \geq 0\),\(x_i \in \{0,1\}\),因此\(\pi_i^{x_i} \geq 0\),乘积\(p(x_1,\dots,x_k) \geq 0\)恒成立,满足非负性。
- 规范性:所有合法取值的概率和为1。多点分布共有\(k\)个合法取值(对应\(k\)个类别分别发生),因此:\[\sum_{\text{所有合法} \ (x_1,\dots,x_k)} p(x_1,\dots,x_k) = \sum_{m=1}^k \pi_m = 1 \]完全满足规范性,是合法的联合概率质量函数。
三、核心数字特征的严格推导
1. 边缘分布与单个分量的数字特征
对于多点分布的任意分量\(X_i\),我们先推导其边缘分布:
\(X_i\)是事件\(A_i\)的示性函数,仅取0和1两个值:
- \(P(X_i=1) = P(A_i) = \pi_i\);
- \(P(X_i=0) = P(\overline{A_i}) = 1 - \pi_i\)。
因此每个分量\(X_i\)服从参数为\(\pi_i\)的两点分布,即\(X_i \sim b(1,\pi_i)\)。
基于两点分布的数字特征,直接得到:
- 数学期望:\(E(X_i) = \pi_i, \ i=1,2,\dots,k\);
- 方差:\(\text{Var}(X_i) = \pi_i(1-\pi_i), \ i=1,2,\dots,k\)。
2. 分量间的协方差严格推导
两个随机变量的协方差定义为\(\text{Cov}(X_i,X_j) = E(X_i X_j) - E(X_i)E(X_j)\),我们分两种情况讨论:
情况1:\(i = j\)
此时\(\text{Cov}(X_i,X_i) = \text{Var}(X_i) = \pi_i(1-\pi_i)\),与单个分量的方差一致。
情况2:\(i \neq j\)
由于\(A_i\)和\(A_j\)互斥,\(X_i\)和\(X_j\)不可能同时取1,因此\(X_i X_j \equiv 0\),其期望\(E(X_i X_j) = 0\)。
代入协方差公式:
综上,多点分布分量的协方差为:
3. 期望向量与协方差矩阵的向量形式
对于\(k\)维随机向量\(X\),我们可以将期望和协方差用矩阵形式统一表达,即教材中给出的公式(1.2.6)。
(1)期望向量
随机向量的期望向量为各分量期望组成的向量:
(2)协方差矩阵
\(k\)维随机向量的协方差矩阵\(\text{Var}(X)\)为\(k \times k\)矩阵,第\((i,j)\)个元素为\(\text{Cov}(X_i,X_j)\)。
我们引入两个矩阵:
- 对角矩阵\(\text{diag}(\pi)\):对角元为\(\pi_1,\pi_2,\dots,\pi_k\),其余元素为0;
- 外积矩阵\(\pi \pi^T\):\(k \times k\)矩阵,第\((i,j)\)个元素为\(\pi_i \pi_j\)。
则协方差矩阵可简洁表示为:
严格验证:
- 对角元(\(i=j\)):\(\text{diag}(\pi)\)的对角元为\(\pi_i\),\(\pi \pi^T\)的对角元为\(\pi_i^2\),因此对角元为\(\pi_i - \pi_i^2 = \pi_i(1-\pi_i)\),与方差一致;
- 非对角元(\(i \neq j\)):\(\text{diag}(\pi)\)的非对角元为0,\(\pi \pi^T\)的非对角元为\(\pi_i \pi_j\),因此非对角元为\(0 - \pi_i \pi_j = -\pi_i \pi_j\),与协方差一致。
补充性质:该协方差矩阵是半正定奇异矩阵,秩为\(k-1\),原因是随机向量满足线性约束\(\sum_{i=1}^k X_i=1\),存在线性依赖,因此矩阵不可逆,秩亏1。
四、核心性质与补充说明
1. 与多项分布的核心联系
多点分布是多项分布的基础单元:若\(X_1,X_2,\dots,X_n\)独立同分布于\(MN(1,\pi)\),则它们的和\(Y = \sum_{t=1}^n X_t\)服从多项分布\(MN(n,\pi)\),即
该性质与“二项分布是\(n\)个独立两点分布的和”完全对应,是多项分布的定义基础。
2. 指数族属性
多点分布属于多元指数族分布,其PMF可改写为指数族标准形式:
该形式是多分类logistic回归的理论核心,为多分类数据的回归建模提供了理论基础。
3. 退化性质
当\(k=1\)时,多点分布退化为单点分布,此时\(X_1 \equiv 1\),\(P(X_1=1)=1\),与单点分布完全兼容,形成了完整的理论体系。
五、典型应用场景
- 单次多分类试验建模:所有单次试验有\(k\)个互斥结果的场景,例如掷标准骰子(\(k=6\))、产品质量等级划分、用户职业/性别/偏好分类、投票意向统计等,是分类数据的基础概率模型。
- 机器学习多分类任务:多分类logistic回归、朴素贝叶斯分类器、决策树的叶节点分布、隐马尔可夫模型的观测概率分布,均以多点分布为核心建模单元。
- 多项分布的基础单元:\(n\)次独立多分类试验的计数建模(如多次掷骰子的点数分布、多次抽样的类别计数),均以多点分布为最小组成单元。
- 抽样调查与市场研究:消费者品牌选择、产品口味偏好、服务满意度分级等多分类结果的统计分析,均基于多点分布的理论框架。
六、多点分布核心信息归纳总结表
| 项目 | 核心内容 | 备注与说明 |
|---|---|---|
| 分布全称 | 多点分布 | 也叫分类分布、类别分布,是两点分布的多元推广 |
| 分布记号 | \(X \sim MN(1,\pi)\)、\(X \sim \text{Cat}(\pi)\) | \(MN\)为多项分布记号,\(n=1\)对应单次试验;\(\pi\)为\(k\)维概率向量 |
| 核心参数 | \(k\)维概率向量\(\pi=(\pi_1,\dots,\pi_k)^T\) | 满足\(\pi_i \geq 0\),\(\sum_{i=1}^k \pi_i=1\),\(\pi_i\)为第\(i\)个类别发生的概率 |
| 随机向量约束 | \(X=(X_1,\dots,X_k)^T\),\(X_i \in \{0,1\}\),\(\sum_{i=1}^k X_i=1\) | 一次试验有且仅有一个类别发生 |
| 联合概率质量函数 | \(p(x_1,\dots,x_k) = \prod_{i=1}^k \pi_i^{x_i}\),其中\(x_i \in \{0,1\}\)且\(\sum x_i=1\) | 仅当一个分量为1、其余为0时概率非零 |
| 边缘分布 | 每个分量\(X_i \sim b(1,\pi_i)\)(两点分布) | 单个类别的发生与否服从两点分布 |
| 期望向量 | \(E(X) = \pi\) | 期望向量等于概率向量\(\pi\) |
| 单个分量方差 | \(\text{Var}(X_i) = \pi_i(1-\pi_i)\) | 与两点分布的方差一致 |
| 分量间协方差 | \(\text{Cov}(X_i,X_j) = \begin{cases} \pi_i(1-\pi_i), & i=j \\ -\pi_i\pi_j, & i \neq j \end{cases}\) | 不同分量间为负协方差,类别间存在互斥约束 |
| 协方差矩阵 | \(\text{Var}(X) = \text{diag}(\pi) - \pi\pi^T\) | 半正定奇异矩阵,秩为\(k-1\) |
| 与其他分布的关系 | 1. \(k=2\)时退化为两点分布\(b(1,\pi_1)\) 2. \(n\)个独立同分布的多点分布之和服从多项分布\(MN(n,\pi)\) 3. \(k=1\)时退化为单点分布 |
连接了单点分布、两点分布、多项分布 |
| 核心属性 | 属于多元指数族分布,是多分类广义线性模型的理论基础 | 为分类数据建模提供了统一框架 |
| 典型应用场景 | 单次多分类试验建模、机器学习多分类任务、多项分布基础单元、抽样调查与市场研究、分类数据统计分析 | 是多分类离散数据建模的核心基础分布 |
多项分布详细讲解与严格推导证明
多项分布是二项分布在多分类场景下的多元推广,是n次独立重复多分类试验的标准概率模型,也是分类数据统计分析、列联表检验、多分类回归的核心理论基础。它与多点分布(单次多分类试验)的关系,完全对应二项分布与两点分布的关系,形成了完整的离散型多分类分布理论体系。我们将从定义、PMF推导、数字特征、核心性质证明到应用场景,完整拆解该分布的全部内容。
一、基础定义与核心概念澄清
1. 严格公理化定义
设\((\Omega, \mathcal{F}, P)\)为概率空间,\(A_1,A_2,\dots,A_k\)为单次试验的样本空间的完备划分,满足:
- 两两互斥:\(A_i \cap A_j = \emptyset, \ \forall i \neq j\);
- 覆盖全集:\(\bigcup_{i=1}^k A_i = \Omega\);
- 概率约束:单次试验中\(P(A_i) = \pi_i\),满足\(\pi_i \geq 0\)且\(\sum_{i=1}^k \pi_i = 1\)。
独立重复进行\(n\)次该试验,定义\(k\)维随机向量\(X = (X_1,X_2,\dots,X_k)^T\),其中分量\(X_i\)表示\(n\)次试验中事件\(A_i\)发生的次数,则称随机向量\(X\)服从参数为\((n,\pi)\)的多项分布,常用记号为\(X \sim MN(n, \pi)\),其中\(\pi = (\pi_1,\pi_2,\dots,\pi_k)^T\)为\(k\)维概率向量。
2. 核心概念澄清
- 与二项分布的关系:当\(k=2\)时,多项分布直接退化为二项分布。此时\(X_1 \sim b(n,\pi_1)\),\(X_2 = n - X_1 \sim b(n,\pi_2)\),\(\pi_2=1-\pi_1\),完全与二项分布等价,因此多项分布是二项分布在\(k\)个互斥类别上的多元推广。
- 与多点分布的关系:当\(n=1\)时,多项分布退化为多点分布(分类分布)\(MN(1,\pi)\),对应单次多分类试验。多项分布的本质是\(n\)个独立同分布的多点分布随机向量的和,与“二项分布是\(n\)个独立两点分布的和”形成完全对应的理论体系。
- 参数的物理意义:
- \(n\):独立重复试验的总次数;
- \(\pi\):\(k\)维概率向量,\(\pi_i\)为单次试验中第\(i\)个类别发生的概率。
- 支撑集约束:随机向量的合法取值必须满足:
- 每个分量\(X_i\)为非负整数;
- 分量和约束:\(\sum_{i=1}^k X_i = n\)(所有类别发生的总次数等于试验总次数)。
二、联合概率质量函数(PMF)的推导与合法性验证
1. PMF的严格推导
我们基于古典概型与试验独立性,推导多项分布的联合PMF:
对于满足\(\sum_{i=1}^k j_i = n\)的非负整数\(j_1,j_2,\dots,j_k\),我们需要计算\(P(X_1=j_1,X_2=j_2,\dots,X_k=j_k)\),分两步分析:
-
组合计数:排列方式总数
\(n\)次试验中,事件\(A_1\)发生\(j_1\)次、\(A_2\)发生\(j_2\)次、…、\(A_k\)发生\(j_k\)次,本质是对\(n\)个试验结果进行多组划分,总排列数为多项式系数:\[\frac{n!}{j_1! j_2! \dots j_k!} \]该系数是二项分布组合数\(\binom{n}{j} = \frac{n!}{j!(n-j)!}\)在多分类场景的推广。
-
单种排列的概率
由于各次试验相互独立,“指定\(j_1\)次\(A_1\)、\(j_2\)次\(A_2\)、…、\(j_k\)次\(A_k\)”的概率为各次试验概率的乘积:\[\underbrace{\pi_1 \cdot \pi_1 \cdot \dots \cdot \pi_1}_{j_1个} \cdot \underbrace{\pi_2 \cdot \pi_2 \cdot \dots \cdot \pi_2}_{j_2个} \cdot \dots \cdot \underbrace{\pi_k \cdot \pi_k \cdot \dots \cdot \pi_k}_{j_k个} = \pi_1^{j_1} \pi_2^{j_2} \dots \pi_k^{j_k} \] -
总概率计算
不同排列对应的事件两两互斥,根据概率的有限可加性,总概率为排列数乘以单种排列的概率,即:\[P(X_1 = j_1,X_2 = j_2,\dots,X_k = j_k) = \frac{n!}{j_1! j_2! \dots j_k!} \pi_1^{j_1} \pi_2^{j_2} \dots \pi_k^{j_k}, \quad \sum_{i=1}^k j_i = n \]与教材给出的PMF完全一致。
2. PMF的合法性验证
合法的联合PMF必须满足非负性和规范性,我们分别严格验证:
-
非负性:对所有合法取值,多项式系数\(\frac{n!}{j_1!\dots j_k!} > 0\),\(\pi_i \geq 0\),因此\(\pi_1^{j_1}\dots\pi_k^{j_k} \geq 0\),故\(P(X_1=j_1,\dots,X_k=j_k) \geq 0\)恒成立,满足非负性。
-
规范性(全概率和为1)
需证明所有合法取值的概率和为1,这里用到多项式定理:对任意实数\(x_1,x_2,\dots,x_k\)和正整数\(n\),有\[(x_1 + x_2 + \dots + x_k)^n = \sum_{\substack{j_1,\dots,j_k \geq 0 \\ \sum j_i = n}} \frac{n!}{j_1! j_2! \dots j_k!} x_1^{j_1} x_2^{j_2} \dots x_k^{j_k} \]令\(x_i = \pi_i\),结合\(\sum_{i=1}^k \pi_i = 1\),代入得:
\[\sum_{\substack{j_1,\dots,j_k \geq 0 \\ \sum j_i = n}} \frac{n!}{j_1! \dots j_k!} \pi_1^{j_1} \dots \pi_k^{j_k} = \left( \sum_{i=1}^k \pi_i \right)^n = 1^n = 1 \]完全满足规范性,是合法的联合概率质量函数。
三、核心分解:独立多点分布的和
教材中给出的分解式是推导多项分布所有性质的核心工具,我们先明确定义,再说明其深层意义。
1. 分解式的严格定义
若\(X \sim MN(n,\pi)\),则\(X\)可以表示为\(n\)个独立同分布的多点分布随机向量之和,即:
其中\(X^m = (X_1^m,X_2^m,\dots,X_k^m)^T\)是第\(m\)次试验对应的多点分布随机向量,定义为:
且\(X^1,X^2,\dots,X^n\)相互独立,每个\(X^m \sim MN(1,\pi)\)(多点分布)。
2. 分解式的核心推论
- 边缘分布为二项分布:对任意分量\(X_i\),有\(X_i = \sum_{m=1}^n X_i^m\),其中每个\(X_i^m \sim b(1,\pi_i)\)(两点分布),且相互独立。因此\(X_i\)是\(n\)个独立两点分布的和,服从二项分布\(b(n,\pi_i)\),即\[X_i \sim b(n,\pi_i), \quad i=1,2,\dots,k \]
- 简化性质推导:多项分布的期望、方差、特征函数、可加性等所有性质,都可以通过多点分布的对应性质直接推导,无需复杂的多元求和。
四、核心数字特征的严格推导
1. 期望向量\(E(X) = n\pi\)的严格推导
随机向量的期望向量为各分量期望组成的向量。对于任意分量\(X_i\),由于\(X_i \sim b(n,\pi_i)\),二项分布的期望为\(E(X_i) = n\pi_i\),因此:
也可通过分解式直接推导:\(E(X) = E\left( \sum_{m=1}^n X^m \right) = \sum_{m=1}^n E(X^m) = \sum_{m=1}^n \pi = n\pi\),与上述结果一致。
2. 协方差矩阵\(\text{Var}(X) = n\left[ \text{diag}(\pi) - \pi\pi^T \right]\)的严格推导
\(k\)维随机向量的协方差矩阵为\(k \times k\)矩阵,第\((i,j)\)个元素为\(\text{Cov}(X_i,X_j)\)。我们通过分解式结合多点分布的协方差矩阵推导:
-
单个多点分布的协方差矩阵:
对于单个多点分布\(X^m \sim MN(1,\pi)\),其协方差矩阵为(已在多点分布章节严格证明):\[\text{Var}(X^m) = \text{diag}(\pi) - \pi\pi^T \]其中:
- 对角元(\(i=j\)):\(\text{Var}(X_i^m) = \pi_i(1-\pi_i)\);
- 非对角元(\(i \neq j\)):\(\text{Cov}(X_i^m,X_j^m) = -\pi_i\pi_j\)。
-
独立随机向量和的协方差矩阵:
对于独立同分布的随机向量\(X^1,\dots,X^n\),和的协方差矩阵等于单个向量协方差矩阵的\(n\)倍,即:\[\text{Var}(X) = \text{Var}\left( \sum_{m=1}^n X^m \right) = \sum_{m=1}^n \text{Var}(X^m) = n \cdot \text{Var}(X^m) \]
因此,多项分布的协方差矩阵为:
分量形式验证:
- 对角元(\(i=j\)):\(\text{Var}(X_i) = n\pi_i(1-\pi_i)\),与二项分布的方差完全一致;
- 非对角元(\(i \neq j\)):\(\text{Cov}(X_i,X_j) = -n\pi_i\pi_j\),负号体现了类别间的互斥性:总试验次数固定时,一个类别发生的次数越多,另一个类别的发生次数越少,因此呈负相关。
补充性质:该协方差矩阵为半正定奇异矩阵,秩为\(k-1\),原因是随机向量满足线性约束\(\sum_{i=1}^k X_i = n\),存在线性依赖,因此矩阵不可逆,秩亏1。
3. 特征函数的严格推导
多元随机向量的特征函数定义为:
其中\(i\)为虚数单位。
我们通过分解式推导:
-
单个多点分布\(X^m\)的特征函数为:
\[\varphi_{X^m}(t) = E\left[ e^{i (X^m)^T t} \right] = \sum_{i=1}^k \pi_i e^{i t_i} \](仅当单个\(X_i^m=1\)时概率非零,因此求和结果为\(\sum \pi_i e^{i t_i}\))
-
独立随机向量和的特征函数等于各特征函数的乘积,因此多项分布的特征函数为:
\[\varphi(t) = \prod_{m=1}^n \varphi_{X^m}(t) = \left( \pi_1 e^{i t_1} + \pi_2 e^{i t_2} + \dots + \pi_k e^{i t_k} \right)^n \]与教材给出的公式完全一致。
五、核心性质的严格证明
1. 可加性
定理:若\(X_1 \sim MN(n_1, \pi)\),\(X_2 \sim MN(n_2, \pi)\),且\(X_1\)与\(X_2\)相互独立,则
严格证明(特征函数法):
- \(X_1\)的特征函数为\(\varphi_1(t) = \left( \sum_{i=1}^k \pi_i e^{i t_i} \right)^{n_1}\);
- \(X_2\)的特征函数为\(\varphi_2(t) = \left( \sum_{i=1}^k \pi_i e^{i t_i} \right)^{n_2}\);
- 由于\(X_1\)与\(X_2\)独立,\(X_1+X_2\)的特征函数为:\[\varphi(t) = \varphi_1(t) \cdot \varphi_2(t) = \left( \sum_{i=1}^k \pi_i e^{i t_i} \right)^{n_1 + n_2} \]
- 该特征函数恰好是参数为\(n_1+n_2, \pi\)的多项分布的特征函数,由特征函数唯一性定理,\(X_1 + X_2 \sim MN(n_1 + n_2, \pi)\),得证。
该性质可推广到任意有限个独立同\(\pi\)的多项分布之和,与二项分布的可加性完全对应。
2. 条件分布与泊松分布的关系(教材性质5)
定理:若\(X_1,X_2,\dots,X_k\)相互独立,且\(X_i \sim P(\lambda_i)\)(泊松分布),则在给定\(X_1 + X_2 + \dots + X_k = n\)的条件下,随机向量\((X_1,X_2,\dots,X_k)^T\)服从多项分布\(MN(n, \pi)\),其中\(\pi_i = \frac{\lambda_i}{\sum_{j=1}^k \lambda_j}, \ i=1,2,\dots,k\)。
严格证明(条件概率定义+泊松分布性质):
-
条件概率展开:根据条件概率定义,对满足\(\sum_{i=1}^k x_i = n\)的非负整数\(x_1,\dots,x_k\),有
\[P(X_1=x_1,\dots,X_k=x_k | \sum_{i=1}^k X_i = n) = \frac{P(X_1=x_1,\dots,X_k=x_k, \sum_{i=1}^k X_i = n)}{P(\sum_{i=1}^k X_i = n)} \] -
分子计算(联合概率):由于\(X_1,\dots,X_k\)相互独立,联合概率为各边缘概率的乘积:
\[P(X_1=x_1,\dots,X_k=x_k) = \prod_{i=1}^k \frac{e^{-\lambda_i} \lambda_i^{x_i}}{x_i!} = e^{-\sum_{i=1}^k \lambda_i} \cdot \frac{\lambda_1^{x_1} \lambda_2^{x_2} \dots \lambda_k^{x_k}}{x_1! x_2! \dots x_k!} \]当\(\sum x_i = n\)时,事件\(\{X_1=x_1,\dots,X_k=x_k\}\)与\(\{X_1=x_1,\dots,X_k=x_k, \sum X_i =n\}\)完全等价,因此分子等于上式。
-
分母计算(和的边缘概率):根据泊松分布的可加性,独立泊松变量的和仍服从泊松分布,即\(\sum_{i=1}^k X_i \sim P\left( \sum_{i=1}^k \lambda_i \right)\),因此:
\[P\left( \sum_{i=1}^k X_i = n \right) = \frac{e^{-\sum_{i=1}^k \lambda_i} \cdot \left( \sum_{i=1}^k \lambda_i \right)^n}{n!} \] -
化简条件概率:将分子分母代入条件概率公式,约去公共项\(e^{-\sum \lambda_i}\),整理得:
\[\begin{align*} P(X_1=x_1,\dots,X_k=x_k | \sum X_i =n) &= \frac{n!}{x_1! x_2! \dots x_k!} \cdot \frac{\lambda_1^{x_1} \lambda_2^{x_2} \dots \lambda_k^{x_k}}{\left( \sum_{j=1}^k \lambda_j \right)^n} \\ &= \frac{n!}{x_1! \dots x_k!} \cdot \left( \frac{\lambda_1}{\sum \lambda_j} \right)^{x_1} \cdot \left( \frac{\lambda_2}{\sum \lambda_j} \right)^{x_2} \cdot \dots \cdot \left( \frac{\lambda_k}{\sum \lambda_j} \right)^{x_k} \end{align*} \]令\(\pi_i = \frac{\lambda_i}{\sum_{j=1}^k \lambda_j}\),则\(\sum_{i=1}^k \pi_i =1\),上式恰好是多项分布\(MN(n,\pi)\)的PMF,因此条件分布为多项分布,得证。
该性质是贝叶斯统计中泊松分布与多项分布共轭性的核心基础,也是文本主题模型、列联表分析的重要理论依据。
六、典型应用场景
- 多分类试验计数建模:所有n次独立多分类试验的计数场景,例如:n次掷骰子各点数出现的次数、市场调查中n个用户的品牌选择计数、生物统计中n个样本的表型分类计数、遗传学中后代基因型的数量统计。
- 分类数据统计推断:列联表的卡方拟合优度检验、独立性检验,其核心假设是单元格计数服从多项分布,是分类数据统计分析的基础。
- 多分类回归建模:多项logistic回归(多分类广义线性模型)的核心响应分布就是多项分布,用于处理响应变量为多分类的回归问题,广泛应用于机器学习、计量经济学、生物统计。
- 自然语言处理:词袋模型中,文档的词频分布服从多项分布,是文本分类、主题模型(LDA)、语言模型的核心概率基础。
- 质量控制与抽样检验:多等级产品的抽样检验中,不同质量等级的产品数量服从多项分布,用于多分类质量特性的验收方案设计。
七、多项分布核心信息归纳总结表
| 项目 | 核心内容 | 备注与说明 |
|---|---|---|
| 分布全称 | 多项分布 | 二项分布在多分类场景的多元推广,离散型多元分布 |
| 分布记号 | \(X \sim MN(n, \pi)\) | \(n\)为试验总次数,\(\pi=(\pi_1,\dots,\pi_k)^T\)为\(k\)维概率向量,满足\(\sum \pi_i=1\) |
| 支撑集 | 非负整数向量\((j_1,\dots,j_k)\),满足\(\sum_{i=1}^k j_i =n\) | 总次数固定,各分量为对应类别发生次数 |
| 联合概率质量函数 | \(P(X_1=j_1,\dots,X_k=j_k) = \frac{n!}{j_1!j_2!\dots j_k!} \prod_{i=1}^k \pi_i^{j_i}, \ \sum j_i =n\) | 基于多项式定理保证规范性 |
| 核心分解 | \(X = \sum_{m=1}^n X^m\),\(X^m\)独立同分布于多点分布\(MN(1,\pi)\) | 所有性质的推导基础,对应二项分布的两点分布分解 |
| 边缘分布 | 单个分量\(X_i \sim b(n,\pi_i)\)(二项分布) | 多分类合并为二分类后服从二项分布 |
| 期望向量 | \(E(X) = n\pi\) | 各分量期望为\(n\pi_i\),等于试验次数乘以对应类别概率 |
| 协方差矩阵 | \(\text{Var}(X) = n\left[ \text{diag}(\pi) - \pi\pi^T \right]\) | 对角元为二项分布方差\(n\pi_i(1-\pi_i)\),非对角元为\(-n\pi_i\pi_j\),半正定奇异矩阵,秩为\(k-1\) |
| 特征函数 | \(\varphi(t) = \left( \sum_{i=1}^k \pi_i e^{i t_i} \right)^n\) | 由独立多点分布的特征函数乘积得到 |
| 可加性 | 若\(X_1 \sim MN(n_1,\pi), X_2 \sim MN(n_2,\pi)\)且独立,则\(X_1+X_2 \sim MN(n_1+n_2,\pi)\) | 要求概率向量\(\pi\)相同,可推广到多个独立分布之和 |
| 与其他分布的关系 | 1. \(k=2\)时退化为二项分布\(b(n,\pi_1)\) 2. \(n=1\)时退化为多点分布\(MN(1,\pi)\) 3. 独立泊松变量在和固定的条件下服从多项分布 |
连接了二项分布、多点分布、泊松分布 |
| 典型应用场景 | 多分类试验计数建模、列联表分析、多项logistic回归、自然语言处理词袋模型、多等级质量抽样检验 | 是多分类离散数据统计建模的核心基础分布 |
常见离散型概率分布核心信息汇总表
| 分布全称 | 常用记号 | 核心参数 | 支撑集(取值范围) | 概率质量函数(PMF) | 数学期望 | 方差 | 核心特征与备注 |
|---|---|---|---|---|---|---|---|
| 单点分布(退化分布) | \(X \sim \delta(a)\) \(X \sim \text{Deg}(a)\) |
\(a \in \mathbb{R}\)(确定性常数) | \(\{a\}\) | \(p(x)=\begin{cases}1, & x=a \\ 0, & x \neq a\end{cases}\) | \(a\) | \(0\) | 随机性完全消失,退化为确定性常量;随机变量方差为0的充要条件;与任意随机变量相互独立;所有离散分布的退化极限 |
| 离散均匀分布 | \(X \sim U(m)\) \(X \sim \text{DU}(1,m)\) |
\(m\)(正整数,总取值个数) | \(\{1,2,\dots,m\}\) | \(p(i)=\frac{1}{m}, \ i=1,2,\dots,m\) | \(\frac{m+1}{2}\) | \(\frac{m^2-1}{12}\) | 有限等可能取值的古典概型标准模型;分布关于\(\frac{m+1}{2}\)完全对称;\(m=1\)时退化为单点分布 |
| 两点分布(伯努利分布) | \(X \sim b(1,\theta)\) \(X \sim \text{Bern}(\theta)\) |
\(\theta \in [0,1]\)(单次试验成功概率) | \(\{0,1\}\) | \(p(x)=\theta^x(1-\theta)^{1-x}, \ x=0,1\) | \(\theta\) | \(\theta(1-\theta)\) | 单次二分类试验的标准模型;事件示性函数的分布;所有二项类分布的基础单元;\(\theta=0\)或\(\theta=1\)时退化为单点分布 |
| 二项分布 | \(X \sim b(n,\theta)\) \(X \sim \text{Bin}(n,\theta)\) |
\(n\)(正整数,独立试验次数) \(\theta \in [0,1]\)(单次成功概率) |
\(\{0,1,2,\dots,n\}\) | \(p(i)=\binom{n}{i}\theta^i(1-\theta)^{n-i}, \ i=0,1,\dots,n\) | \(n\theta\) | \(n\theta(1-\theta)\) | n重独立伯努利试验的成功次数;\(n=1\)时退化为两点分布;独立同\(\theta\)的分布具有可加性;\(n\)足够大时渐近正态分布\(N(n\theta,n\theta(1-\theta))\) |
| 超几何分布 | \(X \sim HG(n,N,M)\) \(X \sim \text{Hyp}(n,N,M)\) |
\(N\)(总体容量) \(M\)(总体目标个体总数) \(n\)(不放回抽样的样本量) |
\(\{\max(0,n+M-N), \dots, \min(n,M)\}\) | \(p(i)=\frac{\binom{M}{i}\binom{N-M}{n-i}}{\binom{N}{n}}\) | \(n \cdot \frac{M}{N}\) | \(n \cdot \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{N-n}{N-1}\) | 有限总体不放回抽样的目标个体计数模型;方差含有限总体校正因子\(\frac{N-n}{N-1}\),恒小于对应二项分布的方差;抽样比例\(\frac{n}{N} \leq 0.05\)时可近似为二项分布\(b(n,\frac{M}{N})\) |
| 几何分布(首次成功试验次数型) | \(X \sim G(\theta)\) \(X \sim \text{Geom}(\theta)\) |
\(\theta \in (0,1)\)(单次成功概率) | \(\{1,2,3,\dots\}\) | \(p(i)=(1-\theta)^{i-1}\theta, \ i \geq 1\) | \(\frac{1}{\theta}\) | \(\frac{1-\theta}{\theta^2}\) | 首次成功所需的试验次数;离散型分布中唯一具有无记忆性的分布;\(r=1\)时的帕斯卡分布 |
| 帕斯卡分布(负二项分布-试验次数型) | \(X \sim PA(r,\theta)\) \(X \sim \text{NB}(r,\theta)\) |
\(r\)(正整数,目标成功次数) \(\theta \in (0,1)\)(单次成功概率) |
\(\{r, r+1, r+2, \dots\}\) | \(p(i)=\binom{i-1}{r-1}\theta^r(1-\theta)^{i-r}, \ i \geq r\) | \(\frac{r}{\theta}\) | \(\frac{r(1-\theta)}{\theta^2}\) | 第\(r\)次成功所需的总试验次数;\(r\)个独立同分布几何分布的和;独立同\(\theta\)的分布具有可加性;\(r=1\)时退化为几何分布 |
| 负二项分布(失败次数型) | \(X \sim NB(r,\theta)\) \(X \sim \text{NegBin}(r,\theta)\) |
\(r\)(正实数,目标成功次数,可推广) \(\theta \in (0,1)\)(单次成功概率) |
\(\{0,1,2,\dots\}\) | \(p(i)=\binom{r+i-1}{i}\theta^r(1-\theta)^i, \ i \geq 0\) | \(\frac{r(1-\theta)}{\theta}\) | \(\frac{r(1-\theta)}{\theta^2}\) | 第\(r\)次成功前的失败总次数;方差恒大于期望,是过离散计数数据的核心拟合模型;\(r=1\)时退化为几何分布的失败次数形式 |
| 泊松分布 | \(X \sim P(\lambda)\) \(X \sim \text{Poisson}(\lambda)\) |
\(\lambda > 0\)(强度参数,事件平均发生次数) | \(\{0,1,2,\dots\}\) | \(p(i)=\frac{e^{-\lambda}\lambda^i}{i!}, \ i \geq 0\) | \(\lambda\) | \(\lambda\) | 单位时间/空间内稀有事件的发生次数模型;二项分布的极限分布(\(n \to \infty, n\theta \to \lambda\));独立分布具有可加性;\(\lambda \geq 20\)时可近似正态分布\(N(\lambda,\lambda)\) |
| 多点分布(分类分布) | \(X \sim MN(1,\pi)\) \(X \sim \text{Cat}(\pi)\) |
\(k\)维概率向量\(\pi=(\pi_1,\dots,\pi_k)^T\),满足\(\sum_{i=1}^k \pi_i=1\) | \(k\)维0-1向量,满足\(\sum_{i=1}^k x_i=1\) | \(p(x_1,\dots,x_k)=\prod_{i=1}^k \pi_i^{x_i}\)(仅单个分量为1时非零) | 期望向量:\(\pi\) | 协方差矩阵:\(\text{diag}(\pi) - \pi\pi^T\) | 单次多分类试验的标准模型;两点分布在多分类场景的推广;\(k=2\)时退化为两点分布;多项分布的基础单元 |
| 多项分布 | \(X \sim MN(n,\pi)\) \(X \sim \text{Mult}(n,\pi)\) |
\(n\)(正整数,独立试验总次数) \(k\)维概率向量\(\pi=(\pi_1,\dots,\pi_k)^T\),满足\(\sum_{i=1}^k \pi_i=1\) |
非负整数向量\((x_1,\dots,x_k)\),满足\(\sum_{i=1}^k x_i =n\) | \(p(x_1,\dots,x_k)=\frac{n!}{\prod_{i=1}^k x_i!} \prod_{i=1}^k \pi_i^{x_i}\) | 期望向量:\(n\pi\) | 协方差矩阵:\(n\left[ \text{diag}(\pi) - \pi\pi^T \right]\) | n次独立多分类试验的类别计数模型;二项分布在多分类场景的推广;\(n=1\)时退化为多点分布;\(k=2\)时退化为二项分布;独立同\(\pi\)的分布具有可加性 |
posted on 2026-02-20 12:10 Indian_Mysore 阅读(1) 评论(0) 收藏 举报
浙公网安备 33010602011771号