昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

1.2常见的离散型分布

单点分布(退化分布)详细讲解与推导证明

各位同学,今天我们来系统讲解概率论中最基础、也最核心的离散型分布——单点分布(退化分布)。我始终强调:要学好复杂的概率分布,必须先把单点分布吃透——它是确定性常量与随机变量之间的桥梁,是整个概率论公理化体系的基石之一,所有随机变量的定义、数字特征的计算,本质上都可以追溯到单点分布的性质。


一、基础定义与核心概念澄清

1. 严格定义

\((\Omega, \mathcal{F}, P)\)为概率空间,\(X\)是定义在该空间上的随机变量。若存在实常数\(a \in \mathbb{R}\),使得

\[P(X = a) = 1 \]

则称随机变量\(X\)服从参数为\(a\)的单点分布,也叫退化分布,常用记号为\(X \sim \delta(a)\)\(X \sim \text{Deg}(a)\)

2. 概念澄清

  • 为什么叫“退化”?普通随机变量的核心是“随机性”,即取值有多种可能、存在波动;而单点分布的随机变量,随机性完全消失,几乎必然取固定值\(a\),相当于从“随机变量”退化为“确定性常量”,因此称为退化分布。
  • 离散型分布的“密度函数”说明:教材中提到的“密度函数”,对离散型随机变量而言,严格名称是概率质量函数(PMF);只有连续型随机变量才有概率密度函数(PDF),二者不可混淆,后续我们统一使用严格术语。
  • 几乎必然相等的细节:\(P(X=a)=1\),不代表\(X\)绝对不能取其他值,仅代表\(X\)取非\(a\)值的事件是零概率事件(概率为0),而非不可能事件。零概率事件≠不可能事件,这是概率论测度论基础的核心细节,初学者务必注意。

二、概率质量函数(PMF)与分布函数(CDF)推导

1. 概率质量函数(PMF)推导

离散型随机变量的PMF定义为:对任意实数\(x\)\(p(x) = P(X=x)\),需满足非负性\(p(x) \geq 0\)规范性\(\sum\limits_{x \in \mathbb{R}} p(x) = 1\)

对于单点分布,\(X\)的支撑集(所有可能取值的集合)仅为单点\(\{a\}\),因此分两种情况:

  • \(x = a\)时,\(p(a) = P(X=a) = 1\)
  • \(x \neq a\)时,\(p(x) = P(X=x) = 0\)

因此单点分布的PMF为:

\[p(x) = \begin{cases} 1, & x = a \\ 0, & x \neq a \end{cases} \]

显然满足非负性与规范性,是合法的概率质量函数。


2. 分布函数(CDF)推导与合法性证明

(1)分布函数的通用定义

对任意实数\(x\),随机变量\(X\)的分布函数定义为:

\[F(x) = P(X \leq x), \quad x \in \mathbb{R} \]

所有分布函数必须满足三条基本性质:单调不减性右连续性极限规范性\(\lim\limits_{x \to -\infty}F(x)=0\)\(\lim\limits_{x \to +\infty}F(x)=1\))。

(2)单点分布CDF的分情况推导

我们基于定义,分两种情况讨论\(F(x)\)的取值:

  1. \(x < a\)
    事件\(\{X \leq x\}\)表示“\(X\)的取值小于等于\(x\)”,但\(X\)仅能以概率1取\(a\),而\(a > x\),因此\(\{X \leq x\}\)是不可能事件,不可能事件的概率为0,因此:

    \[F(x) = P(X \leq x) = 0, \quad x < a \]

  2. \(x \geq a\)
    事件\(\{X \leq x\}\)包含了\(\{X=a\}\),即\(\{X=a\} \subset \{X \leq x\}\),根据概率的单调性:

    \[P(X \leq x) \geq P(X=a) = 1 \]

    而概率的取值范围最大为1,因此\(P(X \leq x) = 1\),即:

    \[F(x) = 1, \quad x \geq a \]

(3)指示函数表示

为了简化表达,我们引入指示函数\(I\{A\}\):对于命题\(A\)

\[I\{A\} = \begin{cases} 1, & 命题A为真 \\ 0, & 命题A为假 \end{cases} \]

因此单点分布的分布函数可以简洁表示为:

\[F(x) = I\{x \geq a\}, \quad x \in \mathbb{R} \]

这就是教材中给出的表达式的完整推导过程。

(4)分布函数的合法性证明

我们验证该函数满足分布函数的三条核心性质:

  1. 单调不减性:对任意\(x_1 < x_2\)

    • \(x_2 < a\)\(F(x_1)=0, F(x_2)=0\),满足\(F(x_1) \leq F(x_2)\)
    • \(x_1 < a \leq x_2\)\(F(x_1)=0, F(x_2)=1\),满足\(F(x_1) \leq F(x_2)\)
    • \(a \leq x_1 < x_2\)\(F(x_1)=1, F(x_2)=1\),满足\(F(x_1) \leq F(x_2)\)
      因此对所有\(x_1 < x_2\),单调不减性成立。
  2. 右连续性:对任意\(x_0 \in \mathbb{R}\)\(\lim\limits_{x \to x_0^+} F(x) = F(x_0)\)

    • \(x_0 < a\)\(x \to x_0^+\)\(x < a\)仍成立,\(F(x)=0=F(x_0)\),右连续;
    • \(x_0 = a\)\(x \to a^+\)\(x \geq a\)\(F(x)=1=F(a)\),右连续;
    • \(x_0 > a\)\(x \to x_0^+\)\(x > a\)\(F(x)=1=F(x_0)\),右连续。
      因此对所有\(x_0\),右连续性成立。
  3. 极限规范性

    • \(x \to -\infty\)时,\(x < a\)恒成立,\(\lim\limits_{x \to -\infty}F(x) = 0\)
    • \(x \to +\infty\)时,\(x \geq a\)恒成立,\(\lim\limits_{x \to +\infty}F(x) = 1\)
      极限规范性成立。

综上,\(F(x)=I\{x \geq a\}\)是完全合法的分布函数。


三、单点分布的数字特征完整推导

离散型随机变量的数字特征,本质上是随机变量函数的期望,核心定义为:若\(X\)的PMF为\(p(x)\),则对可测函数\(g(X)\),其期望为\(E[g(X)] = \sum\limits_{x \in \mathbb{R}} g(x) p(x)\),要求级数绝对收敛。

我们基于该定义,完整推导单点分布的所有核心数字特征(参数为\(a\)):

1. 数学期望(一阶原点矩)

数学期望是随机变量取值的加权平均,权重为对应概率:

\[E(X) = \sum\limits_{x \in \mathbb{R}} x \cdot p(x) = a \cdot p(a) + \sum\limits_{x \neq a} x \cdot 0 = a \cdot 1 = a \]

结论:单点分布的期望等于其参数\(a\),符合直觉——几乎为常数的随机变量,均值就是常数本身。

2. 方差(二阶中心矩)

方差衡量随机变量取值的波动程度,定义为\(D(X) = E\left[X - E(X)\right]^2\),常用计算公式为\(D(X) = E(X^2) - [E(X)]^2\)

第一步先计算二阶原点矩\(E(X^2)\)

\[E(X^2) = \sum\limits_{x \in \mathbb{R}} x^2 \cdot p(x) = a^2 \cdot p(a) = a^2 \cdot 1 = a^2 \]

第二步代入方差公式:

\[D(X) = E(X^2) - [E(X)]^2 = a^2 - a^2 = 0 \]

核心结论:单点分布的方差为0。这是“退化”的核心体现——随机变量取值无任何波动,随机性完全消失。

这里补充一个概率论核心定理:随机变量\(X\)的方差\(D(X)=0\)的充要条件是\(X\)服从单点分布,即存在常数\(a\),使得\(P(X=a)=1\)。该定理建立了方差为0与确定性常量的等价关系,是大数定律的理论基础。

3. 各阶矩的通用结论

  • k阶原点矩\(k=1,2,3,\dots\)):

    \[E(X^k) = \sum\limits_{x \in \mathbb{R}} x^k \cdot p(x) = a^k \cdot 1 = a^k \]

  • k阶中心矩\(k \geq 1\)):

    \[E\left[X - E(X)\right]^k = E\left[X - a\right]^k = (a - a)^k \cdot 1 = 0 \]

结论:单点分布的所有中心矩均为0,进一步说明其取值与均值无任何偏差。

4. 特征函数

特征函数是概率论中研究分布的核心工具,定义为\(\varphi(t) = E\left(e^{itX}\right)\),其中\(i\)为虚数单位,\(t \in \mathbb{R}\)

代入单点分布的PMF:

\[\varphi(t) = \sum\limits_{x \in \mathbb{R}} e^{itx} \cdot p(x) = e^{ita} \cdot p(a) = e^{ita} \]

结论:单点分布的特征函数为\(e^{ita}\),这也是确定性常量的特征函数,是后续分布分解、极限定理研究的基础。


四、单点分布的核心性质与应用场景

1. 核心性质

  1. 确定性等价性:服从单点分布的随机变量\(X\),与常数\(a\)几乎必然相等,二者的分布、所有数字特征、概率性质完全一致。这一性质将确定性常量纳入了随机变量的研究框架,是概率论的基础桥梁。
  2. 全域独立性:若\(X \sim \delta(a)\),则\(X\)任意随机变量\(Y\)相互独立。
    证明:对任意实数\(x,y\),需证\(P(X \leq x, Y \leq y) = P(X \leq x)P(Y \leq y)\)
    • \(x < a\)\(P(X \leq x)=0\),左边\(P(X \leq x,Y \leq y) \leq P(X \leq x)=0\),因此左边=0=右边,成立;
    • \(x \geq a\)\(P(X \leq x)=1\),左边\(P(X \leq x,Y \leq y)=P(Y \leq y)\),右边=1·\(P(Y \leq y)\),相等,成立。
      该性质是“常数与任意随机变量独立”这一常用结论的严格证明。
  3. 分布可分解性:任何离散型随机变量,都可以表示为有限/可数个单点分布的线性组合;任何随机变量,都可以用单点分布的加权和(简单函数)逼近,这是概率论中定义期望(勒贝格积分)的核心基础。

2. 典型应用场景

  1. 理论基础:公理化概率论中,单点分布构造的简单随机变量,是定义随机变量积分、期望的基础,相当于黎曼积分中的阶梯函数。
  2. 统计建模:贝叶斯统计中,单点先验分布对应频率派“参数是固定常量”的核心观点,是连接频率派与贝叶斯派的关键特例。
  3. 极限理论:大数定律、中心极限定理中,随机变量序列收敛到常数,本质上就是收敛到单点分布,是极限定理的核心研究对象。
  4. 随机过程:常数过程是每一个时刻都服从单点分布的随机过程,是最简单的平稳过程、马尔可夫过程,是复杂随机过程研究的基准模型。

五、单点分布核心信息归纳总结表

项目 核心内容 备注与说明
分布全称 单点分布 无任何随机性的离散型分布
常用别名 退化分布、确定性分布 因随机性退化消失得名
分布记号 \(X \sim \delta(a)\)\(X \sim \text{Deg}(a)\) \(a\)为分布的唯一参数,可取任意实数
支撑集 \(\{a\}\) 仅存在一个可能的取值点
概率质量函数(PMF) \(p(x)=\begin{cases}1, & x=a \\ 0, & x \neq a\end{cases}\) 满足非负性、规范性
分布函数(CDF) \(F(x)=I\{x \geq a\}=\begin{cases}0, & x < a \\ 1, & x \geq a\end{cases}\) 满足分布函数三条基本性质
数学期望\(E(X)\) \(a\) 等于分布的参数本身
方差\(D(X)\) \(0\) 无任何取值波动,是方差为0的充要条件
\(k\)阶原点矩\(E(X^k)\) \(a^k\)\(k=1,2,3,\dots\) 为参数的\(k\)次幂
\(k\)阶中心矩\(E[X-E(X)]^k\) \(0\)\(k \geq 1\) 所有中心矩均为0
特征函数\(\varphi(t)\) \(e^{ita}\)\(t \in \mathbb{R}\) 与确定性常量的特征函数一致
核心性质 1. 与常数\(a\)几乎必然等价;2. 与任意随机变量独立;3. 可构造所有简单随机变量 是确定性与随机性的桥梁
典型应用 概率论公理化基础、贝叶斯先验、极限定理、随机过程基准模型 贯穿整个概率论与数理统计体系

离散均匀分布详细讲解与严格推导证明

各位同学,今天我们讲解离散型分布中最具代表性的等概率分布——离散均匀分布。它是古典概型的数学抽象,是整个概率论入门的核心分布,也是后续所有离散型分布的基础参照,我们将延续上一节单点分布的讲解逻辑,从定义到推导、从性质到应用,完整拆解这个分布的全部核心内容。


一、基础定义与核心概念澄清

1. 严格公理化定义

\((\Omega, \mathcal{F}, P)\)为概率空间,\(X\)是定义在该空间上的随机变量。若存在正整数\(m \geq 1\),使得\(X\)的支撑集(所有可能取值的集合)为有限正整数集\(\{1,2,\dots,m\}\),且对任意\(i=1,2,\dots,m\),满足

\[P(X = i) = \frac{1}{m} \]

则称随机变量\(X\)服从参数为\(m\)的离散均匀分布,常用记号为\(X \sim U(m)\),也可称为离散矩形分布、有限等可能分布。

2. 关键概念澄清

  1. 术语纠正:教材中提到的“密度函数”,对离散型随机变量而言,严格名称为概率质量函数(PMF);只有连续型随机变量才有概率密度函数(PDF),二者物理意义完全不同,后续我们统一使用严格的学术术语。
  2. 核心本质:离散均匀分布的核心是等可能性,它是古典概型“有限样本空间、每个基本事件等概率发生”的直接数学建模,教材中“从\(m\)个带标号的球中任取1个”,就是该分布最经典的现实对应。
  3. 参数意义:唯一参数\(m\)是支撑集的元素个数,即试验的总可能结果数,要求\(m\)为正整数;当\(m=1\)时,离散均匀分布\(U(1)\)直接退化为上一节讲解的单点分布\(\delta(1)\),二者完全兼容,形成了完整的理论衔接。
  4. 取值约束:该分布的取值必须是\(1\)\(m\)的正整数,这是教材给出的标准形式;广义的离散均匀分布可定义在任意有限实数集上,只需保证每个取值的概率相等,标准形式是最常用、最便于计算的版本。

二、概率质量函数(PMF)与分布函数(CDF)推导及合法性证明

1. 概率质量函数(PMF)推导与合法性验证

离散型随机变量的PMF定义为:对任意实数\(x\)\(p(x) = P(X=x)\),合法的PMF必须满足非负性\(p(x) \geq 0\)规范性\(\sum\limits_{x \in \mathbb{R}} p(x) = 1\)

(1)PMF的分情况表达

对于离散均匀分布\(U(m)\),分两种情况讨论:

  • \(x\)\(1 \leq x \leq m\)的正整数时,\(p(x) = P(X=x) = \frac{1}{m}\)
  • \(x\)不满足上述条件时,\(p(x) = P(X=x) = 0\)

引入指示函数\(I\{A\}\)(命题\(A\)为真时取1,为假时取0),可将PMF简洁表示为教材中的形式:

\[p(x,m) = \frac{1}{m} \cdot I\{1 \leq x \leq m,\ x \in \mathbb{N}^+\} \]

(2)合法性验证

  • 非负性:对任意实数\(x\)\(\frac{1}{m} > 0\),其余情况\(p(x)=0\),因此\(p(x) \geq 0\)恒成立,满足非负性;
  • 规范性:对所有实数\(x\)求和,仅\(x=1,2,\dots,m\)时有非零值,因此

    \[\sum\limits_{x \in \mathbb{R}} p(x) = \sum\limits_{i=1}^m \frac{1}{m} = m \cdot \frac{1}{m} = 1 \]

    完全满足规范性,是合法的概率质量函数。

2. 分布函数(CDF)推导与合法性证明

(1)分布函数的通用定义

对任意实数\(x\),随机变量\(X\)的分布函数定义为:

\[F(x) = P(X \leq x), \quad x \in \mathbb{R} \]

合法的分布函数必须满足三条核心性质:单调不减性右连续性极限规范性\(\lim\limits_{x \to -\infty}F(x)=0\)\(\lim\limits_{x \to +\infty}F(x)=1\))。

(2)离散均匀分布CDF的分情况推导

我们基于定义,结合\(X\)仅取正整数的特性,分三类区间完整推导:

  1. \(x < 1\)
    事件\(\{X \leq x\}\)表示“\(X\)的取值小于等于\(x\)”,但\(X\)的最小取值为1,因此该事件是不可能事件,不可能事件的概率为0,即:

    \[F(x) = P(X \leq x) = 0, \quad x < 1 \]

  2. \(k \leq x < k+1\)\(k\)\(1 \leq k \leq m-1\)的正整数)时
    由于\(X\)仅取正整数,事件\(\{X \leq x\}\)等价于\(\{X=1,2,\dots,k\}\),这\(k\)个事件两两互斥,根据概率的有限可加性:

    \[F(x) = P(X \leq x) = \sum\limits_{i=1}^k P(X=i) = k \cdot \frac{1}{m} = \frac{k}{m}, \quad k \leq x < k+1 \]

  3. \(x \geq m\)
    事件\(\{X \leq x\}\)包含了\(X\)的所有可能取值,是必然事件,必然事件的概率为1,即:

    \[F(x) = P(X \leq x) = 1, \quad x \geq m \]

结合向下取整函数\(\lfloor x \rfloor\)(不超过\(x\)的最大整数),可将CDF统一表示为:

\[F(x) = \begin{cases} 0, & x < 1 \\ \frac{\lfloor x \rfloor}{m}, & 1 \leq x < m \\ 1, & x \geq m \end{cases}\]

(3)分布函数的合法性证明

我们严格验证该函数满足分布函数的三条核心性质:

  1. 单调不减性:对任意\(x_1 < x_2\)

    • \(x_2 < 1\)\(F(x_1)=0, F(x_2)=0\),满足\(F(x_1) \leq F(x_2)\)
    • \(x_1 < 1 \leq x_2 < m\)\(F(x_1)=0\)\(F(x_2)=\frac{\lfloor x_2 \rfloor}{m} \geq 0\),满足单调性;
    • \(1 \leq x_1 < x_2 < m\)\(\lfloor x_1 \rfloor \leq \lfloor x_2 \rfloor\),因此\(\frac{\lfloor x_1 \rfloor}{m} \leq \frac{\lfloor x_2 \rfloor}{m}\),满足单调性;
    • \(x_1 < m \leq x_2\)\(F(x_1) \leq 1 = F(x_2)\),满足单调性;
    • \(x_1 \geq m\)\(F(x_1)=1, F(x_2)=1\),满足单调性。
      因此对所有\(x_1 < x_2\),单调不减性成立。
  2. 右连续性:对任意\(x_0 \in \mathbb{R}\),需证\(\lim\limits_{x \to x_0^+} F(x) = F(x_0)\)

    • \(x_0 < 1\)\(x \to x_0^+\)\(x < 1\)仍成立,\(F(x)=0=F(x_0)\),右连续;
    • \(1 \leq x_0 < m\)\(x \to x_0^+\)时,\(\lfloor x \rfloor = \lfloor x_0 \rfloor\),因此\(F(x)=\frac{\lfloor x_0 \rfloor}{m}=F(x_0)\),右连续;
    • \(x_0 \geq m\)\(x \to x_0^+\)\(x \geq m\)\(F(x)=1=F(x_0)\),右连续。
      因此对所有\(x_0\),右连续性成立。
  3. 极限规范性

    • \(x \to -\infty\)时,\(x < 1\)恒成立,\(\lim\limits_{x \to -\infty}F(x) = 0\)
    • \(x \to +\infty\)时,\(x \geq m\)恒成立,\(\lim\limits_{x \to +\infty}F(x) = 1\)
      极限规范性完全成立。

综上,该函数是合法的分布函数,其图像为阶梯函数,在\(x=1,2,\dots,m\)处存在跳跃,每个跳跃点的跳跃高度均为\(\frac{1}{m}\)


三、核心数字特征的严格推导

离散型随机变量的数字特征,核心定义为:若\(X\)的PMF为\(p(x)\),则对可测函数\(g(X)\),其期望为\(E[g(X)] = \sum\limits_{x \in \mathbb{R}} g(x) p(x)\),要求级数绝对收敛。

我们基于该定义,完整推导离散均匀分布的核心数字特征,重点讲解教材给出的期望与方差公式。

1. 数学期望(一阶原点矩)严格推导

数学期望是随机变量取值的加权平均,权重为对应概率,代入离散均匀分布的PMF:

\[E(X) = \sum\limits_{x \in \mathbb{R}} x \cdot p(x) = \sum\limits_{i=1}^m i \cdot \frac{1}{m} = \frac{1}{m} \cdot \sum\limits_{i=1}^m i \]

这里用到正整数等差数列求和公式\(\sum\limits_{i=1}^m i = \frac{m(m+1)}{2}\),将其代入上式:

\[E(X) = \frac{1}{m} \cdot \frac{m(m+1)}{2} = \frac{m+1}{2} \]

与教材给出的公式完全一致,该结果符合分布的对称性——等概率分布的均值恰好是取值区间的中点。


2. 方差(二阶中心矩)严格推导

方差衡量随机变量取值的波动程度,核心定义为\(\text{Var}(X) = E\left[X - E(X)\right]^2\),为了简化计算,我们使用等价公式:

\[\text{Var}(X) = E(X^2) - \left[E(X)\right]^2 \]

步骤1:计算二阶原点矩\(E(X^2)\)

\[E(X^2) = \sum\limits_{x \in \mathbb{R}} x^2 \cdot p(x) = \sum\limits_{i=1}^m i^2 \cdot \frac{1}{m} = \frac{1}{m} \cdot \sum\limits_{i=1}^m i^2 \]

这里用到正整数平方和公式\(\sum\limits_{i=1}^m i^2 = \frac{m(m+1)(2m+1)}{6}\),代入上式:

\[E(X^2) = \frac{1}{m} \cdot \frac{m(m+1)(2m+1)}{6} = \frac{(m+1)(2m+1)}{6} \]

步骤2:代入方差公式化简

我们已经得到\(E(X) = \frac{m+1}{2}\),因此\(\left[E(X)\right]^2 = \left(\frac{m+1}{2}\right)^2 = \frac{(m+1)^2}{4}\)

\(E(X^2)\)\(\left[E(X)\right]^2\)代入方差公式:

\[\text{Var}(X) = \frac{(m+1)(2m+1)}{6} - \frac{(m+1)^2}{4} \]

为了合并化简,取公分母12,通分后提取公因子\((m+1)\)

\[\begin{align*} \text{Var}(X) &= \frac{2(m+1)(2m+1) - 3(m+1)^2}{12} \\ &= \frac{(m+1)\left[2(2m+1) - 3(m+1)\right]}{12} \end{align*} \]

展开括号内的项:\(2(2m+1) = 4m+2\)\(3(m+1)=3m+3\),因此:

\[2(2m+1) - 3(m+1) = 4m+2 - 3m - 3 = m - 1 \]

代入后最终化简为:

\[\text{Var}(X) = \frac{(m+1)(m-1)}{12} = \frac{m^2 - 1}{12} \]

与教材给出的方差公式完全一致,推导过程无任何跳步,每一步都有明确的公式依据。


3. 其他核心数字特征补充

  1. \(k\)阶原点矩:对任意正整数\(k\)

    \[E(X^k) = \frac{1}{m} \sum\limits_{i=1}^m i^k \]

    可通过正整数\(k\)次幂和公式直接计算。
  2. 中位数:分布关于\(\frac{m+1}{2}\)对称,因此中位数为\(\frac{m+1}{2}\);当\(m\)为奇数时,中位数与期望、众数完全重合;当\(m\)为偶数时,中位数为区间\([\frac{m}{2}, \frac{m}{2}+1]\)内的任意值,通常取中点\(\frac{m+1}{2}\)
  3. 特征函数:特征函数是研究分布的核心工具,定义为\(\varphi(t) = E\left(e^{itX}\right)\),代入离散均匀分布的PMF,利用等比数列求和公式推导:

    \[\varphi(t) = \sum\limits_{i=1}^m e^{iti} \cdot \frac{1}{m} = \frac{e^{it}(1 - e^{itm})}{m(1 - e^{it})}, \quad t \in \mathbb{R} \]


四、核心性质与典型应用场景

1. 核心性质

  1. 对称性:分布关于对称中心\(\frac{m+1}{2}\)完全对称,即对任意整数\(k\),满足

    \[P\left(X = \frac{m+1}{2} + k\right) = P\left(X = \frac{m+1}{2} - k\right) \]

    这是等概率分布最核心的性质,也是其期望、中位数重合的根本原因。
  2. 退化兼容性:当\(m=1\)时,离散均匀分布\(U(1)\)退化为单点分布\(\delta(1)\),此时\(E(X)=1\)\(\text{Var}(X)=0\),与上一节单点分布的结论完全一致,验证了理论体系的自洽性。
  3. 条件分布封闭性:在给定\(X \in A\)\(A\)\(\{1,2,\dots,m\}\)的非空子集)的条件下,\(X\)的条件分布仍是离散均匀分布,且支撑集为\(A\)
    例:\(X \sim U(10)\),给定\(X\)为偶数,则\(X\)\(\{2,4,6,8,10\}\)上服从离散均匀分布,每个取值的条件概率为\(\frac{1}{5}\)
  4. 无记忆性不成立:离散均匀分布不具备无记忆性,这是它与几何分布的核心区别,切勿混淆。

2. 典型应用场景

  1. 古典概型建模:所有有限等可能的随机试验,都可以用离散均匀分布建模,例如掷标准骰子(\(m=6\))、随机抽签、从有限总体中简单随机抽样、扑克牌点数抽取等。
  2. 蒙特卡洛模拟:离散均匀分布是生成所有离散型随机变量的基础,逆变换法、舍选法等随机数生成算法,均以离散均匀随机数为底层支撑。
  3. 非参数统计:秩检验、符号检验等非参数统计方法中,原假设下样本秩的分布就是离散均匀分布,是整个非参数统计体系的理论基础之一。
  4. 随机化试验:临床试验、随机对照试验中的随机分组,本质上就是基于离散均匀分布实现,保证每个受试对象被分到各组的概率相等。

五、离散均匀分布核心信息归纳总结表

项目 核心内容 备注与说明
分布全称 离散均匀分布 有限等可能离散型分布
常用别名 离散矩形分布、有限等可能分布 古典概型的标准数学模型
分布记号 \(X \sim U(m)\) \(m\)为唯一正整数参数,代表总取值个数
支撑集 \(\{1,2,\dots,m\}\) 标准形式为1到m的正整数,可推广到任意有限实数集
概率质量函数(PMF) \(p(x,m) = \begin{cases}\frac{1}{m}, & x=1,2,\dots,m \\ 0, & 其他\end{cases}\),或\(p(x,m)=\frac{1}{m}I\{1 \leq x \leq m, x \in \mathbb{N}^+\}\) 满足非负性、规范性,每个取值等概率
分布函数(CDF) \(F(x) = \begin{cases}0, & x < 1 \\ \frac{\lfloor x \rfloor}{m}, & 1 \leq x < m \\ 1, & x \geq m\end{cases}\) 阶梯函数,在1,2,…,m处跳跃,跳跃高度均为\(\frac{1}{m}\)
数学期望\(E(X)\) \(\frac{m+1}{2}\) 等于取值区间的中点,符合分布对称性
方差\(\text{Var}(X)\) \(\frac{m^2 - 1}{12}\) 方差随\(m\)增大而增大,取值范围越广,波动越大
\(k\)阶原点矩\(E(X^k)\) \(\frac{1}{m}\sum\limits_{i=1}^m i^k\)\(k=1,2,3,\dots\) 可通过正整数k次幂和公式计算
中位数 \(\frac{m+1}{2}\) 与期望重合,对称中心
特征函数\(\varphi(t)\) \(\frac{e^{it}(1 - e^{itm})}{m(1 - e^{it})}\)\(t \in \mathbb{R}\) 由等比数列求和公式推导得到
核心性质 1. 关于\(\frac{m+1}{2}\)完全对称;2. \(m=1\)时退化为单点分布;3. 条件分布仍为离散均匀分布;4. 与任意独立离散均匀分布的和不服从离散均匀分布 是古典概型的核心分布
典型应用 古典概型建模、简单随机抽样、蒙特卡洛模拟、非参数秩检验、随机化试验设计 贯穿概率论与数理统计全体系的基础分布

两点分布(0-1分布/伯努利分布)详细讲解与严格推导证明

各位同学,今天我们讲解离散型分布中应用最广泛、理论意义最核心的两点分布,也叫0-1分布、伯努利分布。它是所有二分类随机试验的数学抽象,是二项分布、几何分布、负二项分布等经典离散分布的基础单元,更是广义线性模型、分类数据分析、示性函数理论的核心基石,我们将延续之前的讲解逻辑,从定义到推导、从性质到应用,完整拆解该分布的全部核心内容。


一、基础定义与核心概念澄清

1. 严格公理化定义

\((\Omega, \mathcal{F}, P)\)为概率空间,\(X\)是定义在该空间上的随机变量。若\(X\)的支撑集仅为\(\{0,1\}\)两个点,且存在参数\(\theta \in [0,1]\),满足

\[P(X = 1) = \theta, \quad P(X = 0) = 1 - \theta \]

则称随机变量\(X\)服从参数为\(\theta\)的两点分布,常用记号为\(X \sim b(1,\theta)\),也可记为\(X \sim \text{Bern}(\theta)\)(伯努利分布)。

2. 关键概念澄清

  1. 术语纠正:教材中提到的“密度函数”,对离散型随机变量而言,严格名称为概率质量函数(PMF);只有连续型随机变量才有概率密度函数(PDF),二者物理意义完全不同,后续我们统一使用严格的学术术语。
  2. 0-1编码的核心意义:我们用\(X=1\)表示“事件\(A\)发生、试验成功、结果为阳性”等二分类结果,用\(X=0\)表示“事件\(A\)不发生、试验失败、结果为阴性”,这种编码称为伯努利编码,它将定性的随机事件转化为了定量的随机变量,是概率论中连接事件与随机变量的核心桥梁。
  3. 参数的物理意义:唯一参数\(\theta\)是“成功概率”,即目标事件发生的概率,取值范围为\([0,1]\)。当\(\theta=0\)时,\(P(X=0)=1\),退化为单点分布\(\delta(0)\);当\(\theta=1\)时,\(P(X=1)=1\),退化为单点分布\(\delta(1)\),与上一节单点分布完全兼容,验证了理论体系的自洽性。
  4. 分布的定位:两点分布是二项分布\(b(n,\theta)\)\(n=1\)时的特例,\(n\)次独立重复的两点分布试验,就是经典的伯努利试验序列,其结果之和服从二项分布。

二、概率质量函数(PMF)与分布函数(CDF)推导及合法性证明

1. 概率质量函数(PMF)推导与合法性验证

离散型随机变量的PMF定义为:对任意实数\(x\)\(p(x) = P(X=x)\),合法的PMF必须满足非负性\(p(x) \geq 0\)规范性\(\sum\limits_{x \in \mathbb{R}} p(x) = 1\)

(1)PMF的分段与统一形式

对于两点分布,分情况讨论:

  • \(x=1\)时,\(p(1) = P(X=1) = \theta\)
  • \(x=0\)时,\(p(0) = P(X=0) = 1 - \theta\)
  • \(x \neq 0\)\(x \neq 1\)时,\(p(x) = 0\)

为了简化表达,我们可以将\(x=0\)\(x=1\)的情况合并为统一的指数形式:

\[p(x,\theta) = \theta^x (1-\theta)^{1-x}, \quad x=0,1 \]

验证统一形式的正确性

  • \(x=1\)时,\(\theta^1 \cdot (1-\theta)^{0} = \theta \cdot 1 = \theta\),与定义一致;
  • \(x=0\)时,\(\theta^0 \cdot (1-\theta)^{1} = 1 \cdot (1-\theta) = 1-\theta\),与定义一致。

(2)合法性验证

  • 非负性:对任意\(x=0,1\)\(\theta \in [0,1]\),因此\(\theta^x \geq 0\)\((1-\theta)^{1-x} \geq 0\),故\(p(x,\theta) \geq 0\)恒成立,满足非负性;
  • 规范性:对所有实数\(x\)求和,仅\(x=0\)\(x=1\)时有非零值,因此

    \[\sum\limits_{x \in \mathbb{R}} p(x,\theta) = p(0,\theta) + p(1,\theta) = (1-\theta) + \theta = 1 \]

    完全满足规范性,是合法的概率质量函数。

2. 分布函数(CDF)推导与合法性证明

(1)分布函数的通用定义

对任意实数\(x\),随机变量\(X\)的分布函数定义为:

\[F(x) = P(X \leq x), \quad x \in \mathbb{R} \]

合法的分布函数必须满足三条核心性质:单调不减性右连续性极限规范性\(\lim\limits_{x \to -\infty}F(x)=0\)\(\lim\limits_{x \to +\infty}F(x)=1\))。

(2)两点分布CDF的分情况推导

基于\(X\)仅取0和1的特性,分三类区间完整推导:

  1. \(x < 0\)
    事件\(\{X \leq x\}\)表示“\(X\)的取值小于等于\(x\)”,但\(X\)的最小取值为0,因此该事件是不可能事件,不可能事件的概率为0,即:

    \[F(x) = P(X \leq x) = 0, \quad x < 0 \]

  2. \(0 \leq x < 1\)
    由于\(X\)仅取0和1,事件\(\{X \leq x\}\)等价于\(\{X=0\}\),因此:

    \[F(x) = P(X \leq x) = P(X=0) = 1 - \theta, \quad 0 \leq x < 1 \]

  3. \(x \geq 1\)
    事件\(\{X \leq x\}\)包含了\(X\)的所有可能取值,是必然事件,必然事件的概率为1,即:

    \[F(x) = P(X \leq x) = 1, \quad x \geq 1 \]

综上,两点分布的分布函数为分段函数:

\[F(x) = \begin{cases} 0, & x < 0 \\ 1 - \theta, & 0 \leq x < 1 \\ 1, & x \geq 1 \end{cases}\]

其图像为阶梯函数,在\(x=0\)处跳跃高度为\(1-\theta\),在\(x=1\)处跳跃高度为\(\theta\)

(3)分布函数的合法性证明

我们严格验证该函数满足分布函数的三条核心性质:

  1. 单调不减性:对任意\(x_1 < x_2\)

    • \(x_2 < 0\)\(F(x_1)=0, F(x_2)=0\),满足\(F(x_1) \leq F(x_2)\)
    • \(x_1 < 0 \leq x_2 < 1\)\(F(x_1)=0\)\(F(x_2)=1-\theta \geq 0\),满足单调性;
    • \(0 \leq x_1 < x_2 < 1\)\(F(x_1)=1-\theta, F(x_2)=1-\theta\),满足单调性;
    • \(x_1 < 1 \leq x_2\)\(F(x_1) \leq 1 = F(x_2)\),满足单调性;
    • \(x_1 \geq 1\)\(F(x_1)=1, F(x_2)=1\),满足单调性。
      因此对所有\(x_1 < x_2\),单调不减性成立。
  2. 右连续性:对任意\(x_0 \in \mathbb{R}\),需证\(\lim\limits_{x \to x_0^+} F(x) = F(x_0)\)

    • \(x_0 < 0\)\(x \to x_0^+\)\(x < 0\)仍成立,\(F(x)=0=F(x_0)\),右连续;
    • \(0 \leq x_0 < 1\)\(x \to x_0^+\)时,\(0 \leq x < 1\)仍成立,\(F(x)=1-\theta=F(x_0)\),右连续;
    • \(x_0 \geq 1\)\(x \to x_0^+\)\(x \geq 1\)\(F(x)=1=F(x_0)\),右连续。
      因此对所有\(x_0\),右连续性成立。
  3. 极限规范性

    • \(x \to -\infty\)时,\(x < 0\)恒成立,\(\lim\limits_{x \to -\infty}F(x) = 0\)
    • \(x \to +\infty\)时,\(x \geq 1\)恒成立,\(\lim\limits_{x \to +\infty}F(x) = 1\)
      极限规范性完全成立。

三、指数族形式推导与logit变换详解

1. 指数族形式的严格推导

两点分布属于自然指数族分布,这是它能作为logistic回归核心的根本原因。指数族分布的标准形式为:

\[p(x,\eta) = \exp\left\{ \eta^T T(x) - A(\eta) + h(x) \right\} \]

其中\(\eta\)为自然参数,\(T(x)\)为充分统计量,\(A(\eta)\)为对数配分函数,\(h(x)\)为基础测度。

我们基于两点分布的PMF,逐步推导其指数族形式:

  1. 第一步:将PMF转化为指数形式
    利用对数与指数的恒等关系\(a^b = \exp\left\{ b \log a \right\}\),对PMF做变形:

    \[p(x,\theta) = \theta^x (1-\theta)^{1-x} = \exp\left\{ \log\left[ \theta^x (1-\theta)^{1-x} \right] \right\} \]

    根据对数的乘法性质\(\log(ab) = \log a + \log b\),展开括号内的项:

    \[p(x,\theta) = \exp\left\{ x \log \theta + (1-x) \log(1-\theta) \right\} \]

  2. 第二步:整理为标准指数族形式
    展开并合并含\(x\)的项:

    \[x \log \theta + (1-x) \log(1-\theta) = x \log \theta + \log(1-\theta) - x \log(1-\theta) \]

    提取公因子\(x\),并利用对数的除法性质\(\log a - \log b = \log\left( \frac{a}{b} \right)\),合并对数项:

    \[x \left[ \log \theta - \log(1-\theta) \right] + \log(1-\theta) = x \log\left( \frac{\theta}{1-\theta} \right) + \log(1-\theta) \]

    最终得到教材中的指数形式:

    \[p(x,\theta) = \exp\left\{ x \log\left( \frac{\theta}{1-\theta} \right) + \log(1-\theta) \right\} \]

    对应指数族标准形式:自然参数\(\eta = \log\left( \frac{\theta}{1-\theta} \right)\),充分统计量\(T(x)=x\),对数配分函数\(A(\eta) = -\log(1-\theta)\),基础测度\(h(x)=0\)


2. logit变换的核心意义

教材中定义\(\text{logit}(\theta) = \log\left( \frac{\theta}{1-\theta} \right)\),我们从三个维度拆解其核心价值:

  1. 数学定义\(\frac{\theta}{1-\theta}\)称为优势比(Odds),表示成功概率与失败概率的比值,例如\(\theta=0.8\)时,优势比为\(\frac{0.8}{0.2}=4\),即成功的可能性是失败的4倍;\(\text{logit}(\theta)\)就是对优势比取自然对数,也叫对数优势比
  2. 取值范围的优势:当\(\theta \in (0,1)\)时,\(\frac{\theta}{1-\theta} \in (0, +\infty)\),取对数后\(\text{logit}(\theta) \in (-\infty, +\infty)\),将原本限制在\([0,1]\)区间的概率,映射到了整个实数轴。
  3. 应用价值:这一变换解决了回归分析中“概率不能为负、不能超过1”的约束,我们可以用线性模型拟合\(\text{logit}(\theta)\),即\(\text{logit}(\theta) = \beta_0 + \beta_1 x_1 + \dots + \beta_p x_p\),这就是经典的logistic回归模型,是生物统计、计量经济学、机器学习中二分类任务的核心模型。

四、核心数字特征的严格推导

1. 数学期望(一阶原点矩)严格推导

离散型随机变量的数学期望定义为:\(E(X) = \sum\limits_{x \in \mathbb{R}} x \cdot p(x)\),代入两点分布的PMF:

\[E(X) = 0 \cdot P(X=0) + 1 \cdot P(X=1) = 0 \cdot (1-\theta) + 1 \cdot \theta = \theta \]

核心结论:两点分布的期望等于其成功概率\(\theta\)
这一性质有极强的现实意义:任意事件\(A\)的示性函数\(I\{A\}\)\(A\)发生时取1,不发生时取0)服从两点分布,因此\(E\left[ I\{A\} \right] = P(A)\),即示性函数的期望等于事件发生的概率,这是概率论中连接事件概率与随机变量期望的核心公式。


2. 方差(二阶中心矩)严格推导

方差衡量随机变量取值的波动程度,核心定义为\(\text{Var}(X) = E\left[ (X - E(X))^2 \right]\),我们用两种方法完整推导,验证结果的一致性。

方法1:利用方差简化公式\(\text{Var}(X) = E(X^2) - [E(X)]^2\)

第一步:计算二阶原点矩\(E(X^2)\)
由于\(X\)仅取0和1,因此\(X^2 = X\)\(0^2=0\)\(1^2=1\)),因此:

\[E(X^2) = E(X) = \theta \]

第二步:代入方差公式化简。
已知\(E(X)=\theta\),因此\([E(X)]^2 = \theta^2\),代入得:

\[\text{Var}(X) = \theta - \theta^2 = \theta(1-\theta) \]

方法2:利用方差原始定义直接推导

\[\begin{align*} \text{Var}(X) &= E\left[ (X - \theta)^2 \right] \\ &= (0 - \theta)^2 \cdot P(X=0) + (1 - \theta)^2 \cdot P(X=1) \\ &= \theta^2 (1-\theta) + (1-\theta)^2 \theta \\ &= \theta(1-\theta) \cdot \left[ \theta + (1-\theta) \right] \\ &= \theta(1-\theta) \end{align*} \]

两种方法推导结果完全一致,与教材给出的公式吻合。

补充性质:方差\(\text{Var}(X)=\theta(1-\theta)\)是关于\(\theta\)的二次函数,在\(\theta=0.5\)时取得最大值\(\frac{1}{4}\),即当成功与失败概率相等时,两点分布的波动最大;当\(\theta\)趋近于0或1时,方差趋近于0,分布退化为单点分布,符合我们之前的结论。


3. 特征函数的严格推导

特征函数是研究分布的核心工具,定义为\(\varphi(t) = E\left[ e^{itX} \right]\),其中\(i\)为虚数单位,\(t \in \mathbb{R}\)

代入两点分布的PMF,直接计算:

\[\begin{align*} \varphi(t) &= e^{it \cdot 0} \cdot P(X=0) + e^{it \cdot 1} \cdot P(X=1) \\ &= 1 \cdot (1-\theta) + e^{it} \cdot \theta \\ &= (1-\theta) + \theta e^{it} \end{align*} \]

与教材给出的特征函数完全一致。

特征函数的验证:利用特征函数求矩的性质,对\(\varphi(t)\)求导:

  • 一阶导数:\(\varphi'(t) = i\theta e^{it}\)\(\varphi'(0) = i\theta\),因此\(E(X) = \frac{\varphi'(0)}{i} = \theta\),与之前的结果一致;
  • 二阶导数:\(\varphi''(t) = -\theta e^{it}\)\(\varphi''(0) = -\theta\),因此\(E(X^2) = \frac{\varphi''(0)}{i^2} = \theta\),与之前的结果一致。

五、核心性质与典型应用场景

1. 核心性质

  1. 退化兼容性:当\(\theta=0\)时,\(X\)恒为0,服从单点分布\(\delta(0)\);当\(\theta=1\)时,\(X\)恒为1,服从单点分布\(\delta(1)\),与单点分布形成完整的理论衔接。
  2. 示性函数等价性:概率空间中任意事件\(A\)的示性函数\(I\{A\}\),都服从参数为\(\theta=P(A)\)的两点分布,这是将事件运算转化为随机变量运算的核心桥梁,是勒贝格积分、期望定义的基础。
  3. 可加性\(n\)个独立同分布的两点分布\(b(1,\theta)\)的和,服从二项分布\(b(n,\theta)\),这是二项分布的定义,也是独立重复伯努利试验的数学模型。
  4. 指数族属性:属于自然指数族分布,是广义线性模型的核心分布之一,为二分类数据的统计建模提供了理论基础。

2. 典型应用场景

  1. 单次二分类试验建模:所有只有两种结果的单次随机试验,都可以用两点分布建模,例如抛硬币(正面=1,反面=0)、产品质量检验(次品=1,正品=0)、疾病诊断(阳性=1,阴性=0)、用户行为转化(点击=1,不点击=0)等。
  2. 经典离散分布的基础单元:二项分布、几何分布、负二项分布等经典离散分布,均基于独立重复的伯努利试验构建,两点分布是这些分布的最小组成单元。
  3. 二分类回归建模:logistic回归、probit回归等二分类回归模型,核心就是对两点分布的成功概率\(\theta\)进行建模,是生物统计、计量经济学、机器学习中处理分类任务的核心工具。
  4. 蒙特卡洛模拟:二分类随机数的生成,本质就是基于两点分布的抽样,通过均匀分布随机数与\(\theta\)比较,生成0-1随机数,是蒙特卡洛模拟的基础算法。

六、两点分布核心信息归纳总结表

项目 核心内容 备注与说明
分布全称 两点分布 也叫0-1分布、伯努利分布
分布记号 \(X \sim b(1,\theta)\)\(X \sim \text{Bern}(\theta)\) \(\theta\)为唯一参数,代表成功概率,取值范围\(\theta \in [0,1]\)
支撑集 \(\{0,1\}\) 仅取0和1两个离散值
概率质量函数(PMF) 分段形式:\(p(x,\theta)=\begin{cases}\theta, & x=1 \\ 1-\theta, & x=0 \\ 0, & 其他\end{cases}\)
统一形式:\(p(x,\theta)=\theta^x(1-\theta)^{1-x},\ x=0,1\)
满足非负性、规范性,是合法的PMF
分布函数(CDF) \(F(x)=\begin{cases}0, & x < 0 \\ 1-\theta, & 0 \leq x < 1 \\ 1, & x \geq 1\end{cases}\) 阶梯函数,在\(x=0\)\(x=1\)处存在跳跃
指数族形式 \(p(x,\theta) = \exp\left\{ x \log\left( \frac{\theta}{1-\theta} \right) + \log(1-\theta) \right\}\) 属于自然指数族分布,是logistic回归的理论基础
logit变换 \(\text{logit}(\theta) = \log\left( \frac{\theta}{1-\theta} \right)\) 对数优势比,将\(\theta \in (0,1)\)映射到\((-\infty,+\infty)\)
数学期望\(E(X)\) \(\theta\) 等于成功概率,示性函数的期望等于事件发生概率
方差\(\text{Var}(X)\) \(\theta(1-\theta)\) \(\theta=0.5\)时取得最大值\(\frac{1}{4}\)\(\theta \to 0/1\)时方差趋近于0
\(k\)阶原点矩\(E(X^k)\) \(\theta\)\(k=1,2,3,\dots\) \(X^k=X\),所有正整数阶原点矩均等于\(\theta\)
特征函数\(\varphi(t)\) \((1-\theta) + \theta e^{it}\)\(t \in \mathbb{R}\) 可通过求导快速计算各阶矩
核心性质 1. \(\theta=0/1\)时退化为单点分布;2. 示性函数等价于两点分布;3. 独立同分布的和服从二项分布;4. 属于指数族分布 是二分类数据建模的核心基础
典型应用 单次二分类试验建模、伯努利试验序列、logistic回归、蒙特卡洛模拟、示性函数理论 贯穿概率论、数理统计、机器学习全体系

二项分布详细讲解与严格推导证明

各位同学,今天我们系统讲解离散型概率分布中应用最广泛、理论地位最核心的二项分布。它是n重独立伯努利试验的数学抽象,是两点分布的自然延伸,更是数理统计中参数估计、假设检验、分类数据分析的核心基础。我们将延续之前的讲解逻辑,从定义到推导、从核心性质到数值计算方法,完整拆解二项分布的全部内容,覆盖教材中所有公式的严格证明与深层含义。


一、基础定义与核心概念澄清

1. 严格公理化定义

\((\Omega, \mathcal{F}, P)\)为概率空间,\(X\)是定义在该空间上的随机变量。若存在正整数\(n\)(试验次数)和参数\(\theta \in [0,1]\)(单次试验成功概率),使得\(X\)的支撑集为\(\{0,1,2,\dots,n\}\),且对任意\(i=0,1,\dots,n\),满足

\[P(X = i) = \binom{n}{i} \theta^i (1-\theta)^{n-i} \]

则称随机变量\(X\)服从参数为\(n,\theta\)的二项分布,常用记号为\(X \sim b(n,\theta)\),也可记为\(X \sim \text{Bin}(n,\theta)\)
其中\(\binom{n}{i} = \frac{n!}{i!(n-i)!}\)为组合数,表示从\(n\)次试验中选出\(i\)次成功的总情况数,该概率值也记为\(b(i|n,\theta)\)

2. 核心概念澄清

  1. 术语纠正:教材中提到的“密度函数”,对离散型随机变量而言,严格名称为概率质量函数(PMF);只有连续型随机变量才有概率密度函数(PDF),后续我们统一使用严格的学术术语。
  2. 分布的本质:二项分布是n重独立重复伯努利试验的数学模型,对应现实中“重复做n次完全相同、相互独立的二分类试验,统计成功总次数”的场景,例如抛n次硬币的正面次数、抽n件产品的次品数、n个用户的点击转化次数等。
  3. 与两点分布的关系:当\(n=1\)时,二项分布\(b(1,\theta)\)直接退化为上一节讲解的两点分布(伯努利分布),二者完全兼容,两点分布是二项分布的最小单元,二项分布是独立两点分布的累加。
  4. 名称的由来:二项分布的PMF恰好是二项式定理\((\theta + (1-\theta))^n = \sum_{i=0}^n \binom{n}{i}\theta^i(1-\theta)^{n-i}\)的通项,因此得名二项分布。

二、概率质量函数(PMF)的推导与合法性证明

1. PMF的严格推导

我们基于n重伯努利试验的核心假设,完整推导PMF的表达式:
n重伯努利试验满足4个核心条件:

  1. 重复性:每次试验完全相同,只有“成功(事件A发生)”和“失败(事件A不发生)”两个结果;
  2. 独立性:各次试验的结果相互之间无影响;
  3. 概率不变性:每次试验成功的概率恒为\(\theta\),失败概率恒为\(1-\theta\)

要计算“n次试验中恰好成功i次”的概率\(P(X=i)\),分两步分析:

  • 第一步:确定“i次成功、n-i次失败”的排列方式。从n次试验中选i次作为成功,剩余n-i次为失败,总共有\(\binom{n}{i}\)种不同的组合方式;
  • 第二步:计算单一种排列的概率。由于试验独立,“指定i次成功、剩余n-i次失败”的概率为\(\underbrace{\theta \cdot \theta \cdot \dots \cdot \theta}_{i个} \cdot \underbrace{(1-\theta) \cdot (1-\theta) \cdot \dots \cdot (1-\theta)}_{n-i个} = \theta^i (1-\theta)^{n-i}\)

由于不同的组合方式对应的事件两两互斥,根据概率的有限可加性,总概率为所有组合的概率之和,即:

\[P(X=i) = \binom{n}{i} \theta^i (1-\theta)^{n-i}, \quad i=0,1,\dots,n \]

2. PMF的合法性验证

合法的PMF必须满足非负性规范性,我们分别验证:

  1. 非负性:对任意\(i=0,1,\dots,n\),组合数\(\binom{n}{i} \geq 0\)\(\theta \in [0,1]\)\(\theta^i \geq 0\)\((1-\theta)^{n-i} \geq 0\),因此\(P(X=i) \geq 0\)恒成立,满足非负性。
  2. 规范性:对所有可能的取值求和,利用二项式定理:

    \[\sum_{i=0}^n P(X=i) = \sum_{i=0}^n \binom{n}{i} \theta^i (1-\theta)^{n-i} = \left[ \theta + (1-\theta) \right]^n = 1^n = 1 \]

    完全满足规范性,是合法的概率质量函数。

三、二项分布的核心分解:两点分布的独立和

教材中给出的二项分布分解式,是理解和推导二项分布所有性质的核心工具,我们先明确分解的定义,再说明其深层意义。

1. 分解式的严格定义

\(X \sim b(n,\theta)\),则\(X\)可以表示为\(n\)独立同分布的两点分布随机变量之和,即:

\[X = \sum_{i=1}^n X_i \]

其中每个\(X_i\)是第\(i\)次伯努利试验的示性函数,定义为:

\[X_i = \begin{cases} 1, & 第i次试验事件A发生(成功) \\ 0, & 第i次试验事件A不发生(失败) \end{cases}\]

\(X_1,X_2,\dots,X_n\)相互独立,每个\(X_i \sim b(1,\theta)\)(两点分布)。

2. 分解式的核心意义

这个分解式将复杂的二项分布,拆解为\(n\)个最简单的两点分布的独立和,带来了两个核心优势:

  1. 简化推导:二项分布的期望、方差、特征函数、可加性等所有性质,都可以通过两点分布的对应性质直接推导,无需进行复杂的组合数求和;
  2. 理论衔接:建立了单次试验与多次重复试验的数学联系,是伯努利试验序列、大数定律、中心极限定理的理论基础。

四、核心数字特征的严格推导

我们将通过分解法(优先)直接求和法两种方式,完整推导二项分布的期望与方差,两种方法结果完全一致,相互验证。

1. 数学期望\(E(X) = n\theta\)的严格推导

方法1:分解法(期望的线性性)

期望具有线性性:对任意随机变量\(X_1,\dots,X_n\),无论是否独立,都有\(E\left( \sum_{i=1}^n X_i \right) = \sum_{i=1}^n E(X_i)\)

已知每个\(X_i \sim b(1,\theta)\),两点分布的期望\(E(X_i) = \theta\),因此:

\[E(X) = E\left( \sum_{i=1}^n X_i \right) = \sum_{i=1}^n E(X_i) = \sum_{i=1}^n \theta = n\theta \]

方法2:直接求和法(组合恒等式+二项式定理)

根据离散型随机变量期望的定义:

\[E(X) = \sum_{i=0}^n i \cdot P(X=i) = \sum_{i=0}^n i \cdot \binom{n}{i} \theta^i (1-\theta)^{n-i} \]

  • \(i=0\)时,求和项为0,因此求和下限可改为\(i=1\)
  • 利用组合恒等式:\(i \cdot \binom{n}{i} = n \cdot \binom{n-1}{i-1}\),推导如下:

    \[i \cdot \binom{n}{i} = i \cdot \frac{n!}{i!(n-i)!} = \frac{n!}{(i-1)!(n-i)!} = n \cdot \frac{(n-1)!}{(i-1)! \cdot [(n-1)-(i-1)]!} = n \cdot \binom{n-1}{i-1} \]

将恒等式代入期望公式,提取公因子\(n\theta\)

\[\begin{align*} E(X) &= \sum_{i=1}^n n \cdot \binom{n-1}{i-1} \theta^i (1-\theta)^{n-i} \\ &= n\theta \sum_{i=1}^n \binom{n-1}{i-1} \theta^{i-1} (1-\theta)^{(n-1)-(i-1)} \end{align*} \]

\(k = i-1\),则求和范围变为\(k=0\)\(k=n-1\),求和项为二项式展开的全和:

\[\sum_{k=0}^{n-1} \binom{n-1}{k} \theta^k (1-\theta)^{(n-1)-k} = \left[ \theta + (1-\theta) \right]^{n-1} = 1 \]

因此最终得到:

\[E(X) = n\theta \cdot 1 = n\theta \]

与分解法结果完全一致,符合教材给出的公式。


2. 方差\(\text{Var}(X) = n\theta(1-\theta)\)的严格推导

方差的核心定义为\(\text{Var}(X) = E\left[ (X - E(X))^2 \right]\),常用简化公式为\(\text{Var}(X) = E(X^2) - [E(X)]^2\)

方法1:分解法(独立随机变量的方差可加性)

对于相互独立的随机变量\(X_1,\dots,X_n\),方差具有可加性:\(\text{Var}\left( \sum_{i=1}^n X_i \right) = \sum_{i=1}^n \text{Var}(X_i)\)

已知每个\(X_i \sim b(1,\theta)\),两点分布的方差\(\text{Var}(X_i) = \theta(1-\theta)\),且\(X_1,\dots,X_n\)相互独立,因此:

\[\text{Var}(X) = \text{Var}\left( \sum_{i=1}^n X_i \right) = \sum_{i=1}^n \text{Var}(X_i) = \sum_{i=1}^n \theta(1-\theta) = n\theta(1-\theta) \]

方法2:直接求和法(二阶矩计算+组合恒等式)

我们通过简化公式计算,先求二阶原点矩\(E(X^2)\)。利用恒等式\(X^2 = X(X-1) + X\),因此:

\[E(X^2) = E\left[ X(X-1) + X \right] = E\left[ X(X-1) \right] + E(X) \]

先计算\(E\left[ X(X-1) \right]\),根据定义:

\[E\left[ X(X-1) \right] = \sum_{i=0}^n i(i-1) \cdot \binom{n}{i} \theta^i (1-\theta)^{n-i} \]

  • \(i=0\)\(i=1\)时,求和项为0,因此求和下限改为\(i=2\)
  • 利用组合恒等式:\(i(i-1) \cdot \binom{n}{i} = n(n-1) \cdot \binom{n-2}{i-2}\),推导如下:

    \[i(i-1) \cdot \binom{n}{i} = i(i-1) \cdot \frac{n!}{i!(n-i)!} = \frac{n!}{(i-2)!(n-i)!} = n(n-1) \cdot \frac{(n-2)!}{(i-2)! \cdot [(n-2)-(i-2)]!} = n(n-1) \cdot \binom{n-2}{i-2} \]

将恒等式代入,提取公因子\(n(n-1)\theta^2\)

\[\begin{align*} E\left[ X(X-1) \right] &= \sum_{i=2}^n n(n-1) \cdot \binom{n-2}{i-2} \theta^i (1-\theta)^{n-i} \\ &= n(n-1)\theta^2 \sum_{i=2}^n \binom{n-2}{i-2} \theta^{i-2} (1-\theta)^{(n-2)-(i-2)} \end{align*} \]

\(k = i-2\),求和范围变为\(k=0\)\(k=n-2\),求和项为二项式展开的全和,结果为1,因此:

\[E\left[ X(X-1) \right] = n(n-1)\theta^2 \cdot 1 = n(n-1)\theta^2 \]

代入\(E(X^2)\)的表达式,结合\(E(X)=n\theta\)

\[E(X^2) = n(n-1)\theta^2 + n\theta \]

最后代入方差简化公式:

\[\begin{align*} \text{Var}(X) &= E(X^2) - [E(X)]^2 \\ &= n(n-1)\theta^2 + n\theta - (n\theta)^2 \\ &= n^2\theta^2 - n\theta^2 + n\theta - n^2\theta^2 \\ &= n\theta - n\theta^2 = n\theta(1-\theta) \end{align*} \]

与分解法结果完全一致,与教材给出的公式吻合。


五、特征函数的严格推导

特征函数是研究随机变量分布的核心工具,定义为\(\varphi(t) = E\left[ e^{itX} \right]\),其中\(i\)为虚数单位,\(t \in \mathbb{R}\)。我们同样用两种方法推导二项分布的特征函数。

方法1:分解法(独立随机变量特征函数的乘积性)

对于相互独立的随机变量\(X_1,\dots,X_n\),和的特征函数等于各变量特征函数的乘积:\(\varphi_X(t) = \prod_{i=1}^n \varphi_{X_i}(t)\)

已知两点分布\(X_i \sim b(1,\theta)\)的特征函数为\(\varphi_{X_i}(t) = (1-\theta) + \theta e^{it}\),因此:

\[\varphi_X(t) = \prod_{i=1}^n \left[ (1-\theta) + \theta e^{it} \right] = \left[ (1-\theta) + \theta e^{it} \right]^n \]

方法2:直接定义法(二项式定理)

根据特征函数的定义,代入二项分布的PMF:

\[\begin{align*} \varphi(t) &= E\left[ e^{itX} \right] = \sum_{i=0}^n e^{iti} \cdot \binom{n}{i} \theta^i (1-\theta)^{n-i} \\ &= \sum_{i=0}^n \binom{n}{i} \cdot \left( \theta e^{it} \right)^i \cdot (1-\theta)^{n-i} \end{align*} \]

根据二项式定理,该求和式等于\(\left( \theta e^{it} + (1-\theta) \right)^n\),即:

\[\varphi(t) = \left[ (1-\theta) + \theta e^{it} \right]^n \]

两种方法结果完全一致,与教材给出的公式吻合。


六、二项分布核心性质的严格证明

1. 可加性(教材性质4)

定理:若\(X_1 \sim b(n_1, \theta)\)\(X_2 \sim b(n_2, \theta)\),且\(X_1\)\(X_2\)相互独立,则

\[X_1 + X_2 \sim b(n_1 + n_2, \theta) \]

严格证明(特征函数法)

  • \(X_1\)的特征函数为\(\varphi_1(t) = \left[ (1-\theta) + \theta e^{it} \right]^{n_1}\)
  • \(X_2\)的特征函数为\(\varphi_2(t) = \left[ (1-\theta) + \theta e^{it} \right]^{n_2}\)
  • 由于\(X_1\)\(X_2\)独立,因此\(X_1+X_2\)的特征函数为:

    \[\varphi(t) = \varphi_1(t) \cdot \varphi_2(t) = \left[ (1-\theta) + \theta e^{it} \right]^{n_1 + n_2} \]

  • 该特征函数恰好是参数为\(n_1+n_2, \theta\)的二项分布的特征函数,根据特征函数的唯一性定理,随机变量的分布与特征函数一一对应,因此\(X_1 + X_2 \sim b(n_1 + n_2, \theta)\)

补充说明:可加性要求两个二项分布的成功概率\(\theta\)相同,若\(\theta\)不同,可加性不成立。该性质可推广到任意\(k\)个独立同\(\theta\)的二项分布之和。


2. 渐近正态性(教材性质5,棣莫弗-拉普拉斯中心极限定理)

定理:若\(X \sim b(n, \theta)\),则标准化后的随机变量

\[Y_n = \frac{X - n\theta}{\sqrt{n\theta(1-\theta)}} \]

\(n \to +\infty\)时,依分布收敛于标准正态分布\(N(0,1)\),即对任意实数\(x\),有

\[\lim_{n \to +\infty} P(Y_n \leq x) = \Phi(x) \]

其中\(\Phi(x)\)为标准正态分布的分布函数。

核心意义:这是历史上第一个中心极限定理,给出了二项分布的正态近似方法。当\(n\)足够大时,二项分布\(b(n,\theta)\)可以近似为正态分布\(N(n\theta, n\theta(1-\theta))\),无需计算复杂的组合数求和,即可快速计算二项分布的概率,是大样本统计推断的核心基础。


3. 补充核心性质:最可能成功次数(众数)

二项分布的众数是使得\(b(i|n,\theta)\)取得最大值的\(i\),记为\(i_0\),满足:

  • \((n+1)\theta\)为整数时,众数为\(i_0=(n+1)\theta\)\(i_0=(n+1)\theta - 1\),两个取值的概率相等且最大;
  • \((n+1)\theta\)不是整数时,众数为\(i_0 = \lfloor (n+1)\theta \rfloor\)(向下取整)。

该性质可通过相邻项的比值\(\frac{b(i|n,\theta)}{b(i-1|n,\theta)}\)与1的大小比较证明,是二项分布概率分布的核心特征。


七、分布函数(CDF)与不完全β函数的关系

二项分布的分布函数是实际计算中最常用的工具,教材中给出了其与不完全β函数的等价关系,我们先明确定义,再给出严格证明。

1. 二项分布的分布函数定义

对任意实数\(x\),二项分布的分布函数定义为:

\[F(x) = P(X \leq x) = \sum_{k=0}^{\lfloor x \rfloor} b(k|n, \theta) \]

其中\(\lfloor x \rfloor\)表示不超过\(x\)的最大整数(向下取整)。

对于整数\(i=0,1,\dots,n\),我们定义累积分布函数:

\[B(i|n, \theta) = F(i) = P(X \leq i) = \sum_{k=0}^i b(k|n, \theta) \]

对应的生存函数(右尾概率)为:

\[P(X \geq i) = \sum_{j=i}^n b(j|n, \theta) = 1 - B(i-1|n, \theta) \]


2. 预备知识:Γ函数、β函数与正则化不完全β函数

(1)Γ函数

Γ函数是阶乘在实数域上的推广,定义为:

\[\Gamma(p) = \int_0^{+\infty} e^{-x} x^{p-1} dx, \quad p>0 \]

核心性质:

  • 递推性:\(\Gamma(p+1) = p\Gamma(p)\)
  • 正整数阶乘:对正整数\(n\)\(\Gamma(n+1) = n!\)

(2)β函数

β函数是二项式系数在实数域上的推广,定义为:

\[\beta(p,q) = \int_0^1 x^{p-1} (1-x)^{q-1} dx, \quad p>0,q>0 \]

与Γ函数的关系:

\[\beta(p,q) = \frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)} \]

对正整数\(p,q\),有\(\beta(p,q) = \frac{(p-1)!(q-1)!}{(p+q-1)!}\)

(3)正则化不完全β函数(教材定义)

正则化不完全β函数是β分布的分布函数,定义为:

\[I_\xi(p,q) = \frac{1}{\beta(p,q)} \int_0^\xi x^{p-1} (1-x)^{q-1} dx, \quad 0 \leq \xi \leq 1, p>0,q>0 \]

它表示完整β函数在\([0,\xi]\)上的积分占比,取值范围为\([0,1]\)


3. 不完全β函数的核心性质与二项分布的等价性证明

(1)性质1:对称性(教材1.2.2式)

\[I_\xi(p,q) + I_{1-\xi}(q,p) = 1 \]

证明:对\(I_{1-\xi}(q,p)\)做变量替换,令\(x=1-t\),则\(dx=-dt\),积分上下限从\(x=0\)\(x=1-\xi\)变为\(t=1\)\(t=\xi\),因此:

\[\begin{align*} I_{1-\xi}(q,p) &= \frac{1}{\beta(q,p)} \int_0^{1-\xi} x^{q-1} (1-x)^{p-1} dx \\ &= \frac{1}{\beta(p,q)} \int_\xi^1 (1-t)^{q-1} t^{p-1} dt \\ &= \frac{1}{\beta(p,q)} \left( \int_0^1 t^{p-1}(1-t)^{q-1} dt - \int_0^\xi t^{p-1}(1-t)^{q-1} dt \right) \\ &= 1 - I_\xi(p,q) \end{align*} \]

移项即得\(I_\xi(p,q) + I_{1-\xi}(q,p) = 1\),其中用到了\(\beta(p,q)=\beta(q,p)\)的对称性。


(2)性质2:生存函数与不完全β函数的等价性(教材1.2.3式)

\[\sum_{j=i}^n b(j|n,\theta) = I_\theta(i, n-i+1) \]

严格证明(分部积分法)
第一步:先化简正则化不完全β函数的系数。对正整数\(i,n\),有:

\[\frac{1}{\beta(i, n-i+1)} = \frac{\Gamma(n+1)}{\Gamma(i)\Gamma(n-i+1)} = \frac{n!}{(i-1)!(n-i)!} = i \cdot \binom{n}{i} \]

第二步:对积分\(\int_0^\theta x^{i-1} (1-x)^{n-i} dx\)做分部积分。令:

\[u = (1-x)^{n-i}, \quad dv = x^{i-1} dx \]

则:

\[du = -(n-i)(1-x)^{n-i-1} dx, \quad v = \frac{x^i}{i} \]

根据分部积分公式\(\int u dv = uv|_0^\theta - \int v du\),代入得:

\[\begin{align*} \int_0^\theta x^{i-1} (1-x)^{n-i} dx &= \left. \frac{x^i (1-x)^{n-i}}{i} \right|_0^\theta + \frac{n-i}{i} \int_0^\theta x^i (1-x)^{n-i-1} dx \\ &= \frac{\theta^i (1-\theta)^{n-i}}{i} + \frac{n-i}{i} \int_0^\theta x^i (1-x)^{n-i-1} dx \end{align*} \]

第三步:两边乘以\(\frac{1}{\beta(i,n-i+1)} = i\binom{n}{i}\),左边即为\(I_\theta(i,n-i+1)\),右边第一项为:

\[i\binom{n}{i} \cdot \frac{\theta^i (1-\theta)^{n-i}}{i} = \binom{n}{i}\theta^i(1-\theta)^{n-i} = b(i|n,\theta) \]

右边第二项为:

\[i\binom{n}{i} \cdot \frac{n-i}{i} \int_0^\theta x^i (1-x)^{n-i-1} dx = \binom{n}{i}(n-i) \int_0^\theta x^i (1-x)^{n-i-1} dx \]

利用组合恒等式\(\binom{n}{i}(n-i) = (i+1)\binom{n}{i+1} = \frac{1}{\beta(i+1, n-i)}\),因此第二项恰好为\(I_\theta(i+1, n-i)\)

由此得到递推式:

\[I_\theta(i, n-i+1) = b(i|n,\theta) + I_\theta(i+1, n-i) \]

第四步:递推到边界条件。当\(i=n\)时,\(I_\theta(n,1) = \frac{1}{\beta(n,1)} \int_0^\theta x^{n-1} dx = n \cdot \frac{\theta^n}{n} = \theta^n = b(n|n,\theta)\),符合递推式。

将递推式展开,最终得到:

\[I_\theta(i, n-i+1) = b(i|n,\theta) + b(i+1|n,\theta) + \dots + b(n|n,\theta) = \sum_{j=i}^n b(j|n,\theta) \]

即教材中的1.2.3式,证明完毕。


(3)性质3:分布函数与不完全β函数的等价性(教材1.2.4式)

\[B(i|n,\theta) = F(i) = P(X \leq i) = 1 - I_\theta(i+1, n-i) = I_{1-\theta}(n-i, i+1) \]

证明

  • 第一部分:\(P(X \leq i) = 1 - P(X \geq i+1)\),根据性质2,\(P(X \geq i+1) = I_\theta(i+1, n-(i+1)+1) = I_\theta(i+1, n-i)\),因此\(P(X \leq i) = 1 - I_\theta(i+1, n-i)\)
  • 第二部分:根据性质1的对称性,\(1 - I_\theta(i+1, n-i) = I_{1-\theta}(n-i, i+1)\)

两部分结合即得教材中的1.2.4式,证明完毕。


4. 等价关系的核心意义

  1. 数值计算:二项分布的累积概率可以通过成熟的不完全β函数数值算法计算,避免了大\(n\)下组合数求和的计算量爆炸问题;
  2. 理论衔接:建立了离散型二项分布与连续型β分布的联系,教材中给出的\(F(i) = P_\theta(X \leq i) = P(Z > \theta)\)(其中\(Z \sim BE(i+1, n-i)\),即β分布),是贝叶斯统计中二项分布与β分布共轭性的核心理论基础;
  3. 统计推断:二项分布参数的区间估计、假设检验(精确检验),均基于该等价关系实现。

八、二项分布核心信息归纳总结表

项目 核心内容 备注与说明
分布全称 二项分布 也叫n重伯努利分布,离散型经典分布
分布记号 \(X \sim b(n,\theta)\)\(X \sim \text{Bin}(n,\theta)\) \(n\)为试验次数(正整数),\(\theta\)为单次成功概率,\(\theta \in [0,1]\)
支撑集 \(\{0,1,2,\dots,n\}\) 取值为0到n的所有整数
概率质量函数(PMF) $b(i n,\theta) = \binom{n}{i}\thetai(1-\theta), \quad i=0,1,\dots,n$
分布函数(CDF) \(F(x) = \sum_{k=0}^{\lfloor x \rfloor} \binom{n}{k}\theta^k(1-\theta)^{n-k}\) \(\lfloor x \rfloor\)为向下取整函数,整数\(i\)的累积分布记为$B(i
核心分解 \(X = \sum_{i=1}^n X_i\)\(X_i\)独立同分布于\(b(1,\theta)\)(两点分布) 所有性质的推导基础,建立单次与多次试验的联系
数学期望\(E(X)\) \(n\theta\) 等于试验次数乘以单次成功概率
方差\(\text{Var}(X)\) \(n\theta(1-\theta)\) \(n\)增大而增大,\(\theta=0.5\)时单位方差最大
特征函数\(\varphi(t)\) \(\left[ (1-\theta) + \theta e^{it} \right]^n\) 由二项式定理直接推导,可用于求矩、证明可加性
可加性 \(X_1 \sim b(n_1,\theta), X_2 \sim b(n_2,\theta)\)且独立,则\(X_1+X_2 \sim b(n_1+n_2,\theta)\) 要求成功概率\(\theta\)相同,可推广到多个独立分布之和
渐近正态性 \(\frac{X-n\theta}{\sqrt{n\theta(1-\theta)}} \xrightarrow{d} N(0,1)\)\(n \to \infty\) 棣莫弗-拉普拉斯中心极限定理,大样本下可正态近似
与不完全β函数的关系 1. \(P(X \geq i) = I_\theta(i, n-i+1)\)
2. \(P(X \leq i) = 1 - I_\theta(i+1, n-i) = I_{1-\theta}(n-i, i+1)\)
用于二项分布累积概率的精确计算,衔接β分布
众数(最可能成功次数) 1. \((n+1)\theta\)为整数时,众数为\((n+1)\theta\)\((n+1)\theta-1\)
2. 非整数时,众数为\(\lfloor (n+1)\theta \rfloor\)
概率质量最大的取值
核心应用场景 n重独立重复二分类试验建模、产品质量检验、临床试验有效率分析、二分类数据统计推断、贝叶斯共轭先验建模、蒙特卡洛模拟 是数理统计中离散型数据建模的核心基础分布

帕斯卡(Pascal)分布详细讲解与严格推导证明

各位同学,今天我们系统讲解离散型分布中几何分布的自然推广——帕斯卡分布,也叫负二项分布(试验次数形式)。它是伯努利试验序列中“第r次成功所需总试验次数”的数学模型,是排队论、可靠性理论、质量控制等领域的核心基础分布。我们将延续一贯的讲解逻辑,从定义到推导、从核心性质到应用场景,完整拆解该分布的全部内容,覆盖教材中所有公式的严格证明与深层含义。


一、基础定义与核心概念澄清

1. 严格公理化定义

\((\Omega, \mathcal{F}, P)\)为概率空间,\(X\)是定义在该空间上的随机变量。若存在正整数\(r\)(目标成功次数)和参数\(\theta \in (0,1)\)(单次伯努利试验的成功概率),使得\(X\)的支撑集为\(\{r, r+1, r+2, \dots\}\)(所有不小于\(r\)的正整数),且对任意整数\(i \geq r\),满足

\[P(X = i) = \binom{i-1}{r-1} \theta^r (1-\theta)^{i-r} \]

则称随机变量\(X\)服从参数为\(r,\theta\)的帕斯卡分布,常用记号为\(X \sim PA(r,\theta)\),也可记为\(X \sim \text{NB}(r,\theta)\)(负二项分布的试验次数形式)。
该概率值也记为\(pa(i|r,\theta)\),其中\(\binom{i-1}{r-1} = \frac{(i-1)!}{(r-1)!(i-r)!}\)为组合数。

2. 核心概念澄清

  1. 术语纠正:教材中提到的“密度函数”,对离散型随机变量而言,严格名称为概率质量函数(PMF);只有连续型随机变量才有概率密度函数(PDF),后续我们统一使用严格的学术术语。
  2. 试验背景:帕斯卡分布的核心场景是独立重复伯努利试验序列:持续进行单次成功概率为\(\theta\)的独立伯努利试验,直到恰好出现\(r\)次成功为止,记录此时的总试验次数\(X\)
  3. 与几何分布的关系:当\(r=1\)时,帕斯卡分布\(PA(1,\theta)\)直接退化为几何分布\(G(\theta)\)。几何分布描述“首次成功所需的试验次数”,帕斯卡分布是其推广,描述“第\(r\)次成功所需的总试验次数”,二者是单元与整体的关系。
  4. 与负二项分布的区别:部分教材将“\(r\)次成功前的失败次数”定义为负二项分布,记为\(Y\)。此时\(Y\)与帕斯卡分布的\(X\)满足线性关系\(X = Y + r\)\(Y\)的支撑集为\(\{0,1,2,\dots\}\),PMF为\(P(Y=k) = \binom{k+r-1}{r-1} \theta^r (1-\theta)^k\),二者本质等价,仅参数化形式不同,学习时需注意区分定义形式。
  5. 与二项分布的核心差异:二项分布是固定试验次数\(n\),统计成功次数;帕斯卡分布是固定成功次数\(r\),统计所需试验次数,二者均基于伯努利试验,但研究的随机变量完全不同,切勿混淆。

二、概率质量函数(PMF)的严格推导与合法性验证

1. PMF的直观与严格推导

我们从帕斯卡分布的试验背景出发,完整推导PMF的表达式:
事件\(\{X = i\}\)表示\(i\)次试验恰好是第\(r\)次成功,该事件等价于两个独立子事件的交集:

  1. \(i-1\)次试验中,恰好出现\(r-1\)次成功;
  2. \(i\)次试验结果为成功。

我们分别计算两个子事件的概率:

  • \(i-1\)次试验中恰好\(r-1\)次成功的概率:这是固定\(i-1\)次试验的二项分布概率,即\(\binom{i-1}{r-1} \theta^{r-1} (1-\theta)^{(i-1)-(r-1)} = \binom{i-1}{r-1} \theta^{r-1} (1-\theta)^{i-r}\)
  • \(i\)次试验成功的概率:单次伯努利试验的成功概率为\(\theta\)

由于各次试验相互独立,两个子事件独立,因此总概率为二者的乘积:

\[P(X=i) = \binom{i-1}{r-1} \theta^{r-1} (1-\theta)^{i-r} \cdot \theta = \binom{i-1}{r-1} \theta^r (1-\theta)^{i-r}, \quad i \geq r \]

关键易错点提醒:组合数是\(\binom{i-1}{r-1}\)而非\(\binom{i}{r}\),因为第\(i\)次试验必须是成功,不能纳入前序的组合选择中,这是帕斯卡分布与二项分布PMF的核心区别。


2. PMF的合法性验证

合法的PMF必须满足非负性规范性,我们分别严格验证:

  1. 非负性:对任意\(i \geq r\),组合数\(\binom{i-1}{r-1} \geq 0\)\(\theta \in (0,1)\)\(\theta^r > 0\)\((1-\theta)^{i-r} \geq 0\),因此\(P(X=i) \geq 0\)恒成立,满足非负性。

  2. 规范性:需证明无穷级数求和\(\sum_{i=r}^\infty P(X=i) = 1\),这里需要用到负二项式定理(广义二项式展开)。
    负二项式定理:对任意实数\(r>0\)\(|x|<1\),有

    \[(1-x)^{-r} = \sum_{k=0}^\infty \binom{k+r-1}{r-1} x^k \]

    其中\(\binom{k+r-1}{r-1}\)为广义组合数,当\(r\)为正整数时,就是普通组合数。

    证明步骤:

    • 第一步:做变量替换,令\(k = i - r\),则\(i = k + r\),当\(i\)\(r\)\(+\infty\)时,\(k\)\(0\)\(+\infty\),求和式变为:

      \[\sum_{i=r}^\infty P(X=i) = \sum_{k=0}^\infty \binom{(k+r)-1}{r-1} \theta^r (1-\theta)^{(k+r)-r} = \theta^r \sum_{k=0}^\infty \binom{k+r-1}{r-1} (1-\theta)^k \]

    • 第二步:应用负二项式定理,令\(x=1-\theta\),显然\(|x|=1-\theta < 1\),因此:

      \[\sum_{k=0}^\infty \binom{k+r-1}{r-1} (1-\theta)^k = (1 - (1-\theta))^{-r} = \theta^{-r} \]

    • 第三步:代入求和式,得到:

      \[\sum_{i=r}^\infty P(X=i) = \theta^r \cdot \theta^{-r} = 1 \]

    完全满足规范性,是合法的概率质量函数。


三、核心分解:独立几何分布的和

教材中给出的分解式是理解和推导帕斯卡分布所有性质的核心工具,我们先明确定义,再说明其深层意义。

1. 分解式的严格定义

\(X \sim PA(r,\theta)\),则\(X\)可以表示为\(r\)独立同分布的几何分布随机变量之和,即:

\[X = \sum_{k=1}^r X_k \]

其中\(X_k\)的定义为:

  • \(X_1\):从试验开始到第1次成功所需的试验次数;
  • \(X_2\):第1次成功后,到第2次成功所需的试验次数;
  • ...
  • \(X_k\):第\(k-1\)次成功后,到第\(k\)次成功所需的试验次数。

由于伯努利试验具有独立性和无记忆性,\(X_1,X_2,\dots,X_r\)相互独立,且每个\(X_k \sim G(\theta) = PA(1,\theta)\)(几何分布)。

2. 分解式的核心意义

这个分解式将复杂的帕斯卡分布,拆解为\(r\)个最简单的几何分布的独立和,带来了两个核心优势:

  1. 简化推导:帕斯卡分布的期望、方差、特征函数、可加性等所有性质,都可以通过几何分布的对应性质直接推导,无需进行复杂的无穷级数求和;
  2. 理论衔接:建立了单次成功与多次成功的数学联系,是更新过程、排队论中到达间隔模型的理论基础。

四、核心数字特征的严格推导

我们将通过分解法(优先)直接定义法两种方式,完整推导帕斯卡分布的期望与方差,两种方法结果完全一致,相互验证。

前置知识:几何分布的数字特征

几何分布\(X_k \sim G(\theta)\)的PMF为\(P(X_k = t) = (1-\theta)^{t-1}\theta, \ t \geq 1\),其核心数字特征为:

  • 数学期望:\(E(X_k) = \frac{1}{\theta} = \theta^{-1}\)
  • 方差:\(\text{Var}(X_k) = \frac{1-\theta}{\theta^2} = (1-\theta)\theta^{-2}\)

1. 数学期望\(E(X) = r\theta^{-1}\)的严格推导

方法1:分解法(期望的线性性)

期望具有线性性:对任意随机变量\(X_1,\dots,X_r\),无论是否独立,都有\(E\left( \sum_{k=1}^r X_k \right) = \sum_{k=1}^r E(X_k)\)

代入几何分布的期望,直接得到:

\[E(X) = E\left( \sum_{k=1}^r X_k \right) = \sum_{k=1}^r E(X_k) = \sum_{k=1}^r \frac{1}{\theta} = \frac{r}{\theta} = r\theta^{-1} \]

方法2:直接定义法(负二项式定理)

根据离散型随机变量期望的定义:

\[E(X) = \sum_{i=r}^\infty i \cdot P(X=i) = \sum_{i=r}^\infty i \cdot \binom{i-1}{r-1} \theta^r (1-\theta)^{i-r} \]

做变量替换\(k = i - r\),即\(i = k + r\),求和式变为:

\[E(X) = \theta^r \sum_{k=0}^\infty (k+r) \cdot \binom{k+r-1}{r-1} (1-\theta)^k \]

利用组合恒等式:\((k+r)\binom{k+r-1}{r-1} = r \cdot \binom{k+r}{r}\),代入后提取公因子\(r\)

\[E(X) = r\theta^r \sum_{k=0}^\infty \binom{k+r}{r} (1-\theta)^k \]

再次应用负二项式定理,\(\sum_{k=0}^\infty \binom{k+r}{r} (1-\theta)^k = (1-(1-\theta))^{-(r+1)} = \theta^{-(r+1)}\),代入得:

\[E(X) = r\theta^r \cdot \theta^{-(r+1)} = \frac{r}{\theta} = r\theta^{-1} \]

与分解法结果完全一致,符合教材给出的公式。


2. 方差\(\text{Var}(X) = r(1-\theta)\theta^{-2}\)的严格推导

方差的核心定义为\(\text{Var}(X) = E\left[ (X - E(X))^2 \right]\),对于相互独立的随机变量,方差具有可加性:\(\text{Var}\left( \sum_{k=1}^r X_k \right) = \sum_{k=1}^r \text{Var}(X_k)\)

方法1:分解法(独立随机变量的方差可加性)

由于\(X_1,X_2,\dots,X_r\)相互独立,代入几何分布的方差,直接得到:

\[\text{Var}(X) = \text{Var}\left( \sum_{k=1}^r X_k \right) = \sum_{k=1}^r \text{Var}(X_k) = \sum_{k=1}^r \frac{1-\theta}{\theta^2} = \frac{r(1-\theta)}{\theta^2} = r(1-\theta)\theta^{-2} \]

方法2:直接定义法(二阶矩计算)

通过方差简化公式\(\text{Var}(X) = E(X^2) - [E(X)]^2\),利用负二项式定理计算\(E(X^2)\),最终可得到与分解法完全一致的结果,此处不再赘述,核心结论与教材公式完全吻合。


3. 特征函数的严格推导

特征函数是研究随机变量分布的核心工具,定义为\(\varphi(t) = E\left[ e^{itX} \right]\),其中\(i\)为虚数单位,\(t \in \mathbb{R}\)

对于独立随机变量之和,和的特征函数等于各变量特征函数的乘积。几何分布\(X_k \sim G(\theta)\)的特征函数为:

\[\varphi_{X_k}(t) = E\left[ e^{itX_k} \right] = \frac{\theta e^{it}}{1 - (1-\theta)e^{it}}, \quad |(1-\theta)e^{it}| = 1-\theta < 1 \]

因此帕斯卡分布的特征函数为:

\[\varphi_X(t) = \prod_{k=1}^r \varphi_{X_k}(t) = \left( \frac{\theta e^{it}}{1 - (1-\theta)e^{it}} \right)^r \]

该特征函数是后续证明可加性、推导高阶矩的核心工具。


五、核心性质的严格证明

1. 可加性(教材性质3)

定理:若\(X_1 \sim PA(r_1, \theta)\)\(X_2 \sim PA(r_2, \theta)\),且\(X_1\)\(X_2\)相互独立,则

\[X_1 + X_2 \sim PA(r_1 + r_2, \theta) \]

严格证明(两种方法)

方法1:分解法(最直观)

  • \(X_1\)可分解为\(r_1\)个独立同分布的几何分布之和:\(X_1 = \sum_{k=1}^{r_1} X_k\)
  • \(X_2\)可分解为\(r_2\)个独立同分布的几何分布之和:\(X_2 = \sum_{k=r_1+1}^{r_1+r_2} X_k\)
  • 由于\(X_1\)\(X_2\)独立,所有\(X_k\)相互独立,均服从\(G(\theta)\)
  • 因此\(X_1+X_2 = \sum_{k=1}^{r_1+r_2} X_k\),是\(r_1+r_2\)个独立几何分布的和,服从\(PA(r_1+r_2, \theta)\)

方法2:特征函数法(最严谨)

  • \(X_1\)的特征函数为\(\varphi_1(t) = \left( \frac{\theta e^{it}}{1 - (1-\theta)e^{it}} \right)^{r_1}\)
  • \(X_2\)的特征函数为\(\varphi_2(t) = \left( \frac{\theta e^{it}}{1 - (1-\theta)e^{it}} \right)^{r_2}\)
  • 由于\(X_1\)\(X_2\)独立,\(X_1+X_2\)的特征函数为:

    \[\varphi(t) = \varphi_1(t) \cdot \varphi_2(t) = \left( \frac{\theta e^{it}}{1 - (1-\theta)e^{it}} \right)^{r_1 + r_2} \]

  • 该特征函数恰好是参数为\(r_1+r_2, \theta\)的帕斯卡分布的特征函数,根据特征函数的唯一性定理,随机变量的分布与特征函数一一对应,因此\(X_1 + X_2 \sim PA(r_1 + r_2, \theta)\)

补充说明:可加性要求两个帕斯卡分布的单次成功概率\(\theta\)相同,若\(\theta\)不同,可加性不成立。该性质可推广到任意\(k\)个独立同\(\theta\)的帕斯卡分布之和。


2. 退化性质

\(r=1\)时,帕斯卡分布\(PA(1,\theta)\)退化为几何分布\(G(\theta)\),此时所有性质与几何分布完全一致,包括无记忆性。

补充说明:当\(r>1\)时,帕斯卡分布不具备无记忆性。无记忆性是几何分布的独有性质,即\(P(X>s+t | X>s) = P(X>t)\)\(r>1\)时该等式不成立,这是帕斯卡分布与几何分布的核心区别。


3. 与负二项分布的等价转换

\(X \sim PA(r,\theta)\),令\(Y = X - r\)\(r\)次成功前的失败次数),则\(Y\)服从负二项分布,其PMF为:

\[P(Y=k) = \binom{k+r-1}{r-1} \theta^r (1-\theta)^k, \quad k \geq 0 \]

该转换是贝叶斯统计中“二项分布与β分布共轭性”的核心基础,也是计数数据建模的常用形式。


六、典型应用场景

  1. 质量控制与抽样检验:连续抽检产品,直到抽到第\(r\)个次品为止,记录总抽检次数,该次数服从帕斯卡分布,是验收抽样方案的核心模型。
  2. 可靠性工程:系统需要\(r\)个相同部件依次工作,每个部件的寿命服从几何分布,系统的总寿命服从帕斯卡分布,用于冗余系统的可靠性评估。
  3. 排队论与随机过程:顾客到达服从伯努利过程,第\(r\)个顾客到达的时间间隔服从帕斯卡分布,是更新过程、离散时间排队系统的基础模型。
  4. 生物统计与流行病学:观察到第\(r\)个感染病例所需的暴露次数、第\(r\)次复发所需的随访时间,均可用帕斯卡分布建模。
  5. 金融工程与风险管理:标的资产价格出现\(r\)次上涨所需的交易次数、触发第\(r\)次违约所需的观测期数,服从帕斯卡分布,用于期权定价与信用风险建模。

七、帕斯卡分布核心信息归纳总结表

项目 核心内容 备注与说明
分布全称 帕斯卡分布 也叫负二项分布(试验次数形式),离散型等待时间分布
分布记号 \(X \sim PA(r,\theta)\)\(X \sim \text{NB}(r,\theta)\) \(r\)为目标成功次数(正整数),\(\theta\)为单次成功概率,\(\theta \in (0,1)\)
支撑集 \(\{r, r+1, r+2, \dots\}\) 所有不小于\(r\)的正整数
概率质量函数(PMF) $pa(i r,\theta) = \binom{i-1}{r-1} \theta^r (1-\theta)^{i-r}, \quad i \geq r$
核心分解 \(X = \sum_{k=1}^r X_k\)\(X_k\)独立同分布于几何分布\(G(\theta)\) 所有性质的推导基础,建立与几何分布的联系
数学期望\(E(X)\) \(\frac{r}{\theta} = r\theta^{-1}\) 与成功次数\(r\)成正比,与单次成功概率\(\theta\)成反比
方差\(\text{Var}(X)\) \(\frac{r(1-\theta)}{\theta^2} = r(1-\theta)\theta^{-2}\) \(r\)增大而增大,随\(\theta\)增大而减小
特征函数\(\varphi(t)\) \(\left( \frac{\theta e^{it}}{1 - (1-\theta)e^{it}} \right)^r\) 由独立几何分布的特征函数乘积得到
可加性 \(X_1 \sim PA(r_1,\theta), X_2 \sim PA(r_2,\theta)\)且独立,则\(X_1+X_2 \sim PA(r_1+r_2,\theta)\) 要求单次成功概率\(\theta\)相同,可推广到多个独立分布之和
退化性质 \(r=1\)时,退化为几何分布\(G(\theta)\) \(r=1\)时具备无记忆性,\(r>1\)时无记忆性不成立
与负二项分布的关系 \(Y=X-r\),则\(Y\)服从负二项分布(失败次数形式),\(P(Y=k)=\binom{k+r-1}{r-1}\theta^r(1-\theta)^k, k\geq0\) 二者线性等价,仅参数化形式不同
核心应用场景 质量抽样检验、可靠性工程、排队论、生物统计、金融风险管理 是离散型等待时间、计数数据建模的核心基础分布

负二项分布详细讲解与严格推导证明

各位同学,今天我们系统讲解负二项分布,它是帕斯卡分布的等价参数化形式,是离散型计数数据建模的核心分布,也是解决“过离散计数数据”问题的关键工具。我们将延续一贯的讲解逻辑,从定义、PMF推导、核心分解、数字特征、性质证明到应用场景,完整拆解该分布的全部内容,覆盖教材中所有公式的严格证明与深层含义。


一、基础定义与核心概念澄清

1. 严格公理化定义

\((\Omega, \mathcal{F}, P)\)为概率空间,若随机变量\(Y \sim PA(r,\theta)\)(帕斯卡分布,描述\(r\)次成功所需的总试验次数),则定义

\[X = Y - r \]

\(X\)服从参数为\(r,\theta\)的负二项分布,常用记号为\(X \sim NB(r,\theta)\)

  • 物理意义:\(X\)表示在独立重复伯努利试验中,恰好取得\(r\)次成功时,所经历的失败总次数
  • 支撑集:\(\{0,1,2,\dots\}\)(所有非负整数),与帕斯卡分布的支撑集\(\{r,r+1,\dots\}\)形成线性对应。

2. 核心概念澄清

  1. 与帕斯卡分布的关系:负二项分布与帕斯卡分布是线性等价的,仅参数化视角不同:

    • 帕斯卡分布:固定成功次数\(r\),统计总试验次数\(Y\)
    • 负二项分布:固定成功次数\(r\),统计总失败次数\(X=Y-r\)
      二者可通过线性变换相互转换,所有性质完全兼容。
  2. 名称的由来:负二项分布的PMF恰好是负二项式定理的通项。负二项式定理指出,对任意实数\(r>0\)\(|x|<1\),有:

    \[(1-x)^{-r} = \sum_{i=0}^\infty \binom{r+i-1}{i} x^i \]

    \(x=1-\theta\),代入后可直接验证PMF的规范性,因此得名“负二项分布”。

  3. 与几何分布的关系:当\(r=1\)时,负二项分布\(NB(1,\theta)\)退化为几何分布的失败次数形式,对应教材性质(1):若\(X \sim NB(1,\theta)\),则\(X+1 \sim G(\theta)\)(几何分布的总试验次数形式)。

  4. 广义与狭义的区别:教材中\(r\)为正整数(狭义负二项分布),实际应用中\(r\)可推广为正实数(广义负二项分布),此时组合数通过Γ函数表示为\(\binom{r+i-1}{i} = \frac{\Gamma(r+i)}{\Gamma(r)i!}\),仍满足分布的所有性质,应用范围更广。


二、概率质量函数(PMF)的严格推导与合法性验证

1. PMF的严格推导

基于负二项分布与帕斯卡分布的线性关系,我们直接推导PMF:
事件\(\{X=i\}\)\(r\)次成功前恰好失败\(i\)次)等价于事件\(\{Y=i+r\}\)\(r\)次成功的总试验次数为\(i+r\))。

帕斯卡分布的PMF为:

\[P(Y=k) = \binom{k-1}{r-1} \theta^r (1-\theta)^{k-r}, \quad k \geq r \]

\(k=i+r\)代入上式,得到:

\[\begin{align*} P(X=i) &= P(Y=i+r) \\ &= \binom{(i+r)-1}{r-1} \theta^r (1-\theta)^{(i+r)-r} \\ &= \binom{i+r-1}{r-1} \theta^r (1-\theta)^i \end{align*} \]

根据组合数的对称性\(\binom{n}{k}=\binom{n}{n-k}\)\(\binom{i+r-1}{r-1}=\binom{i+r-1}{i}\),因此PMF可写为教材中的标准形式:

\[P(X=i) \triangleq nb(i|r,\theta) = \binom{r+i-1}{i} \theta^r (1-\theta)^i, \quad i=0,1,2,\dots \]


2. PMF的合法性验证

合法的PMF必须满足非负性规范性,我们分别严格验证:

  1. 非负性:对任意\(i \geq 0\),组合数\(\binom{r+i-1}{i} \geq 0\)\(\theta \in (0,1)\)\(\theta^r > 0\)\((1-\theta)^i \geq 0\),因此\(P(X=i) \geq 0\)恒成立,满足非负性。

  2. 规范性:需证明无穷级数求和\(\sum_{i=0}^\infty P(X=i) = 1\),利用负二项式定理:

    \[\begin{align*} \sum_{i=0}^\infty P(X=i) &= \sum_{i=0}^\infty \binom{r+i-1}{i} \theta^r (1-\theta)^i \\ &= \theta^r \sum_{i=0}^\infty \binom{r+i-1}{i} (1-\theta)^i \\ &= \theta^r \cdot \left[ 1 - (1-\theta) \right]^{-r} \\ &= \theta^r \cdot \theta^{-r} = 1 \end{align*} \]

    完全满足规范性,是合法的概率质量函数。


三、核心分解:独立同分布单元的和

教材中给出的分解式是推导负二项分布所有性质的核心工具,我们先明确定义,再说明其深层意义。

1. 分解式的严格定义

\(X \sim NB(r,\theta)\),则\(X\)可以表示为\(r\)独立同分布的基础负二项分布随机变量之和,即:

\[X = \sum_{k=1}^r X_k \]

其中\(X_k\)的定义为:第\(k-1\)次成功后,到第\(k\)次成功之间所经历的失败次数。

由于伯努利试验具有独立性无记忆性\(X_1,X_2,\dots,X_r\)相互独立,且每个\(X_k \sim NB(1,\theta)\)\(r=1\)的负二项分布)。

2. 分解式的核心意义

  1. 简化推导:负二项分布的期望、方差、特征函数、可加性等所有性质,都可以通过基础单元\(NB(1,\theta)\)的对应性质直接推导,无需复杂的无穷级数求和;
  2. 理论衔接:建立了单次成功与多次成功的数学联系,是更新过程、计数过程建模的核心基础。

四、核心数字特征的严格推导

我们将通过分解法(优先)直接定义法,完整推导负二项分布的期望与方差,并验证教材中给出的方差-期望等价式。

前置知识:基础单元\(NB(1,\theta)\)的数字特征

\(X_k \sim NB(1,\theta)\)的PMF为\(P(X_k=i)=\theta(1-\theta)^i, \ i \geq 0\),其核心数字特征为:

  • 数学期望:\(E(X_k) = \frac{1-\theta}{\theta} = \theta^{-1}(1-\theta)\)
  • 方差:\(\text{Var}(X_k) = \frac{1-\theta}{\theta^2} = \theta^{-2}(1-\theta)\)

1. 数学期望\(E(X) = r\theta^{-1}(1-\theta)\)的严格推导

方法1:分解法(期望的线性性)

期望具有线性性:对任意随机变量\(X_1,\dots,X_r\),无论是否独立,都有\(E\left( \sum_{k=1}^r X_k \right) = \sum_{k=1}^r E(X_k)\)

代入基础单元的期望,直接得到:

\[E(X) = E\left( \sum_{k=1}^r X_k \right) = \sum_{k=1}^r E(X_k) = \sum_{k=1}^r \frac{1-\theta}{\theta} = \frac{r(1-\theta)}{\theta} = r\theta^{-1}(1-\theta) \]

方法2:直接定义法(负二项式定理)

根据离散型随机变量期望的定义:

\[E(X) = \sum_{i=0}^\infty i \cdot \binom{r+i-1}{i} \theta^r (1-\theta)^i \]

利用组合恒等式\(i\binom{r+i-1}{i} = r\binom{r+i}{i+1}\),结合负二项式定理,最终可得到与分解法完全一致的结果,验证了结论的正确性。


2. 方差\(\text{Var}(X) = r\theta^{-2}(1-\theta)\)的严格推导

方差的核心定义为\(\text{Var}(X) = E\left[ (X - E(X))^2 \right]\),对于相互独立的随机变量,方差具有可加性:\(\text{Var}\left( \sum_{k=1}^r X_k \right) = \sum_{k=1}^r \text{Var}(X_k)\)

方法1:分解法(独立随机变量的方差可加性)

由于\(X_1,X_2,\dots,X_r\)相互独立,代入基础单元的方差,直接得到:

\[\text{Var}(X) = \text{Var}\left( \sum_{k=1}^r X_k \right) = \sum_{k=1}^r \text{Var}(X_k) = \sum_{k=1}^r \frac{1-\theta}{\theta^2} = \frac{r(1-\theta)}{\theta^2} = r\theta^{-2}(1-\theta) \]


3. 方差-期望等价式的严格证明

教材中给出了方差与期望的等价关系:

\[\text{Var}(X) = \mu + r^{-1}\mu^2, \quad \text{其中} \ \mu \triangleq E(X) = \frac{r(1-\theta)}{\theta} \]

严格证明:将\(\mu\)代入等式右侧,化简验证:

\[\begin{align*} \text{右侧} &= \mu + \frac{1}{r}\mu^2 \\ &= \frac{r(1-\theta)}{\theta} + \frac{1}{r} \cdot \left( \frac{r(1-\theta)}{\theta} \right)^2 \\ &= \frac{r(1-\theta)}{\theta} + \frac{r(1-\theta)^2}{\theta^2} \\ &= \frac{r(1-\theta) \cdot \theta + r(1-\theta)^2}{\theta^2} \\ &= \frac{r(1-\theta) \cdot \left[ \theta + (1-\theta) \right]}{\theta^2} \\ &= \frac{r(1-\theta)}{\theta^2} = \text{Var}(X) = \text{左侧} \end{align*} \]

等式成立。

核心意义:该式表明负二项分布的方差恒大于期望\(r^{-1}\mu^2>0\)),即具有过离散性。而泊松分布的方差等于期望,因此负二项分布是拟合过离散计数数据的核心工具,比泊松分布更具稳健性。


五、特征函数的严格推导

特征函数是研究随机变量分布的核心工具,定义为\(\varphi(t) = E\left[ e^{itX} \right]\),其中\(i\)为虚数单位,\(t \in \mathbb{R}\)

对于独立随机变量之和,和的特征函数等于各变量特征函数的乘积。基础单元\(X_k \sim NB(1,\theta)\)的特征函数为:

\[\begin{align*} \varphi_{X_k}(t) &= E\left[ e^{itX_k} \right] = \sum_{i=0}^\infty e^{iti} \cdot \theta(1-\theta)^i \\ &= \theta \sum_{i=0}^\infty \left[ e^{it}(1-\theta) \right]^i \\ &= \frac{\theta}{1 - (1-\theta)e^{it}} = \theta \left( 1 - q e^{it} \right)^{-1}, \quad q=1-\theta \end{align*} \]

(等比级数收敛条件:\(|q e^{it}|=q<1\),恒成立)

因此负二项分布的特征函数为\(r\)个独立单元特征函数的乘积:

\[\varphi(t) = \left[ \varphi_{X_k}(t) \right]^r = \theta^r \left( 1 - q e^{it} \right)^{-r}, \quad q=1-\theta \]

与教材给出的公式完全一致。


六、核心性质的严格证明

1. 与几何分布的等价性(教材性质1)

定理:若\(X \sim NB(1,\theta)\),则\(T=X+1 \sim G(\theta)\)(几何分布)。

严格证明
\(X \sim NB(1,\theta)\)的PMF为\(P(X=i)=\theta(1-\theta)^i, \ i \geq 0\)
\(T=X+1\)的支撑集为\(\{1,2,3,\dots\}\),其PMF为:

\[P(T=t) = P(X=t-1) = \theta(1-\theta)^{t-1}, \quad t \geq 1 \]

该式恰好是几何分布\(G(\theta)\)的标准PMF,因此\(T \sim G(\theta)\),得证。


2. 可加性(教材性质4)

定理:若\(X_1 \sim NB(r_1, \theta)\)\(X_2 \sim NB(r_2, \theta)\),且\(X_1\)\(X_2\)相互独立,则

\[X_1 + X_2 \sim NB(r_1 + r_2, \theta) \]

严格证明(特征函数法)

  • \(X_1\)的特征函数为\(\varphi_1(t) = \theta^{r_1} \left( 1 - q e^{it} \right)^{-r_1}\)
  • \(X_2\)的特征函数为\(\varphi_2(t) = \theta^{r_2} \left( 1 - q e^{it} \right)^{-r_2}\)
  • 由于\(X_1\)\(X_2\)独立,\(X_1+X_2\)的特征函数为:

    \[\varphi(t) = \varphi_1(t) \cdot \varphi_2(t) = \theta^{r_1+r_2} \left( 1 - q e^{it} \right)^{-(r_1+r_2)} \]

  • 该特征函数恰好是参数为\(r_1+r_2, \theta\)的负二项分布的特征函数,根据特征函数的唯一性定理\(X_1 + X_2 \sim NB(r_1 + r_2, \theta)\),得证。

补充说明:可加性要求两个负二项分布的单次成功概率\(\theta\)相同,若\(\theta\)不同,可加性不成立。该性质可推广到任意\(k\)个独立同\(\theta\)的负二项分布之和。


3. 累积分布与正则化不完全β函数的关系(教材性质5)

定理:负二项分布的累积分布函数满足

\[P(X \leq i) = NB(i|r,\theta) = I_\theta(r, i+1) \]

其中\(I_\xi(p,q)\)为正则化不完全β函数。

证明思路
事件\(\{X \leq i\}\)\(r\)次成功前失败次数不超过\(i\))等价于事件\(\{在i+r次伯努利试验中,成功次数至少为r\}\)
根据二项分布与不完全β函数的等价关系,二项分布\(Bin(i+r,\theta)\)的右尾概率满足:

\[P(Bin(i+r,\theta) \geq r) = I_\theta(r, i+1) \]

因此\(P(X \leq i) = I_\theta(r, i+1)\),得证。

该性质是负二项分布参数区间估计、精确假设检验的核心理论基础。


七、典型应用场景

  1. 过离散计数数据建模:生物统计中的菌落数、寄生虫数量,流行病学中的发病次数,保险精算中的索赔次数,这类数据的方差大于期望,不适合用泊松分布,负二项分布是首选模型。
  2. 广义线性模型:负二项回归是广义线性模型的核心分支,用于拟合计数型响应变量,解决泊松回归的过离散问题,广泛应用于计量经济学、生物统计、公共卫生领域。
  3. 可靠性工程:描述系统出现\(r\)次故障前的正常运行次数、冗余系统的寿命分布,是可靠性评估的核心工具。
  4. 生态学与空间统计:描述物种的空间聚集分布、个体数量的计数特征,是生态建模的经典分布。
  5. 质量控制与抽样检验:生产过程中出现\(r\)个次品前的合格品数量、验收抽样方案的设计,均可用负二项分布建模。

八、负二项分布核心信息归纳总结表

项目 核心内容 备注与说明
分布全称 负二项分布 离散型计数分布,帕斯卡分布的失败次数参数化形式
分布记号 \(X \sim NB(r,\theta)\) \(r\)为目标成功次数(正整数,可推广为正实数),\(\theta\)为单次成功概率,\(\theta \in (0,1)\)
支撑集 \(\{0,1,2,\dots\}\) 所有非负整数,对应\(r\)次成功前的失败次数
概率质量函数(PMF) $nb(i r,\theta) = \binom{r+i-1}{i} \theta^r (1-\theta)^i, \quad i \geq 0$
核心分解 \(X = \sum_{k=1}^r X_k\)\(X_k\)独立同分布于\(NB(1,\theta)\) 所有性质的推导基础,建立与几何分布的联系
数学期望\(E(X)\) \(\frac{r(1-\theta)}{\theta} = r\theta^{-1}(1-\theta)\) 与成功次数\(r\)成正比,与单次成功概率\(\theta\)成反比
方差\(\text{Var}(X)\) \(\frac{r(1-\theta)}{\theta^2} = r\theta^{-2}(1-\theta)\) 恒大于期望,具有过离散性,是区别于泊松分布的核心特征
方差-期望等价式 \(\text{Var}(X) = \mu + r^{-1}\mu^2\),其中\(\mu=E(X)\) 用于过离散性检验与模型参数化
特征函数\(\varphi(t)\) \(\theta^r \left( 1 - (1-\theta)e^{it} \right)^{-r}\) 由独立单元的特征函数乘积得到
可加性 \(X_1 \sim NB(r_1,\theta), X_2 \sim NB(r_2,\theta)\)且独立,则\(X_1+X_2 \sim NB(r_1+r_2,\theta)\) 要求单次成功概率\(\theta\)相同,可推广到多个独立分布之和
与其他分布的关系 1. \(r=1\)时,\(X+1 \sim G(\theta)\)(几何分布)
2. \(X=Y-r\)\(Y \sim PA(r,\theta)\)(帕斯卡分布)
3. \(r \to \infty, r(1-\theta) \to \lambda\)时,收敛于泊松分布\(P(\lambda)\)
与经典离散分布形成完整的理论体系
累积分布关系 \(P(X \leq i) = I_\theta(r, i+1)\) 与正则化不完全β函数等价,用于精确统计推断
核心应用场景 过离散计数数据建模、负二项回归、可靠性工程、生态统计、质量控制、保险精算 是计数数据统计建模的核心基础分布

超几何分布详细讲解与严格推导证明

各位同学,今天我们系统讲解超几何分布,它是有限总体不放回抽样的核心概率模型,是古典概型的经典应用,也是抽样调查、质量检验、生物统计等领域的基础工具。我们将延续一贯的讲解逻辑,从定义、PMF推导、数字特征严格证明、核心性质解析到应用场景,完整拆解该分布的全部内容,覆盖教材中所有公式的深层含义与严格推导。


一、基础定义与核心概念澄清

1. 严格公理化定义

设有限总体包含\(N\)个个体,其中\(M\)个为“目标个体(成功类,如次品、阳性个体)”,剩余\(N-M\)个为“非目标个体(失败类)”。从该总体中不放回随机抽取\(n\)个个体,记\(X\)为抽取的\(n\)个个体中目标个体的数量,则称随机变量\(X\)服从参数为\((n,N,M)\)的超几何分布,常用记号为\(X \sim HG(n,N,M)\)

2. 核心概念澄清

  1. 参数的物理意义

    • \(N\):总体容量,即总体中个体的总数;
    • \(M\):总体中目标类个体的总数;
    • \(n\):不放回抽样的样本量,即抽取的个体总数。
      三个参数均为正整数,且满足\(0 \leq M \leq N\)\(0 < n \leq N\)
  2. 支撑集(取值范围)
    \(X\)的可能取值\(i\)需满足两个约束:

    • 抽取的目标个体数不能超过总体中的目标总数,也不能超过样本量:\(i \leq \min(n, M)\)
    • 抽取的非目标个体数\(n-i\)不能超过总体中的非目标总数\(N-M\),即\(n-i \leq N-M\),变形得\(i \geq n - (N-M) = \max(0, n+M-N)\)
      因此\(X\)的支撑集为:\(i = \max(0, n+M-N), \dots, \min(n, M)\)
      例:\(N=10, M=3, n=8\),则\(i \geq 8+3-10=1\)\(i \leq \min(8,3)=3\),即\(X\)只能取1,2,3,符合直觉:抽8个产品,总体只有7个正品,因此至少抽到1个次品。
  3. 与二项分布的核心区别

    特征 超几何分布 二项分布
    抽样方式 有限总体不放回抽样,各次试验不独立 无限总体/有放回抽样,各次试验独立
    成功概率 每次抽取的成功概率随抽样变化 每次试验的成功概率固定不变
    核心场景 小总体、抽样比例高的场景 大总体、抽样比例低的场景
  4. 名称的由来:超几何分布的概率质量函数是超几何级数的通项系数,因此得名超几何分布。


二、概率质量函数(PMF)的严格推导与合法性验证

1. PMF的严格推导(古典概型法)

超几何分布的抽样是不放回简单随机抽样,所有可能的样本是等可能的,因此用古典概型推导PMF:

  1. 样本空间的总基本事件数:从\(N\)个个体中不放回抽取\(n\)个,不考虑抽取顺序,总共有\(\binom{N}{n}\)种不同的抽取方式,每种方式的概率相等。

  2. 事件\(\{X=i\}\)的基本事件数:要使抽取的\(n\)个个体中恰好有\(i\)个目标个体,需分两步完成:

    • 第一步:从\(M\)个目标个体中抽取\(i\)个,共有\(\binom{M}{i}\)种方式;
    • 第二步:从\(N-M\)个非目标个体中抽取剩余的\(n-i\)个,共有\(\binom{N-M}{n-i}\)种方式。
      根据分步乘法计数原理,事件\(\{X=i\}\)包含的基本事件数为\(\binom{M}{i} \cdot \binom{N-M}{n-i}\)
  3. 古典概型的概率计算
    事件的概率等于事件包含的基本事件数除以样本空间总基本事件数,因此:

    \[P(X = i) \triangleq h(i|n;N,M) = \frac{\binom{M}{i} \binom{N-M}{n-i}}{\binom{N}{n}} \]

    其中\(i\)的取值范围为\(\max(0, n+M-N) \leq i \leq \min(n, M)\),超出该范围时\(P(X=i)=0\),与教材给出的公式完全一致。


2. PMF的合法性验证

合法的PMF必须满足非负性规范性,我们分别严格验证:

  1. 非负性
    对所有合法的\(i\),组合数\(\binom{M}{i} \geq 0\)\(\binom{N-M}{n-i} \geq 0\)\(\binom{N}{n} > 0\),因此\(P(X=i) \geq 0\)恒成立,满足非负性。

  2. 规范性(全概率和为1)
    需证明\(\sum_{i} P(X=i) = 1\),这里用到范德蒙恒等式
    对任意非负整数\(N,M,n\),有

    \[\sum_{i=0}^{\min(n,M)} \binom{M}{i} \binom{N-M}{n-i} = \binom{N}{n} \]

    范德蒙恒等式的组合意义:从包含\(M\)个男生、\(N-M\)个女生的\(N\)人中选\(n\)人,总选法等于“选\(i\)个男生、\(n-i\)个女生”的选法对所有\(i\)求和,与直接从\(N\)人中选\(n\)人的选法相等。

    因此,对所有合法的\(i\)求和:

    \[\sum_{i} P(X=i) = \sum_{i} \frac{\binom{M}{i} \binom{N-M}{n-i}}{\binom{N}{n}} = \frac{1}{\binom{N}{n}} \cdot \binom{N}{n} = 1 \]

    完全满足规范性,是合法的概率质量函数。


三、核心数字特征的严格推导

1. 数学期望\(E(X) = n \cdot \frac{M}{N}\)的严格推导

我们用示性函数分解法(最简洁,无需复杂组合求和)推导,该方法的核心是利用期望的线性性(无需随机变量独立)。

步骤1:构造示性函数分解

\(X\)分解为\(n\)个示性函数的和:

\[X = \sum_{k=1}^n X_k \]

其中\(X_k\)为第\(k\)次抽取的示性函数,定义为:

\[X_k = \begin{cases} 1, & 第k次抽取到目标个体 \\ 0, & 第k次抽取到非目标个体 \end{cases}\]

步骤2:计算单个示性函数的期望

对于不放回简单随机抽样,每一次抽取到目标个体的概率都是相等的,均为\(\frac{M}{N}\)
证明:第\(k\)次抽取时,所有\(N\)个个体在第\(k\)次被抽到的概率完全相等,因此抽到目标个体的概率为目标个体数除以总体数,即\(P(X_k=1) = \frac{M}{N}\)\(P(X_k=0) = 1 - \frac{M}{N}\)

因此单个示性函数的期望为:

\[E(X_k) = 1 \cdot P(X_k=1) + 0 \cdot P(X_k=0) = \frac{M}{N} \]

步骤3:利用期望的线性性求和

期望的线性性对任意随机变量均成立,无论是否独立,因此:

\[E(X) = E\left( \sum_{k=1}^n X_k \right) = \sum_{k=1}^n E(X_k) = \sum_{k=1}^n \frac{M}{N} = n \cdot \frac{M}{N} \]

与教材给出的期望公式完全一致。

直观意义:期望等于样本量乘以总体的目标个体比例(次品率),与二项分布的期望\(n\theta\)形式一致,其中\(\theta = \frac{M}{N}\)为总体的成功概率。


2. 方差\(\text{Var}(X) = n \cdot \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{N-n}{N-1}\)的严格推导

方差的核心定义为\(\text{Var}(X) = E\left[ (X - E(X))^2 \right]\),对于多个随机变量之和,方差公式为:

\[\text{Var}\left( \sum_{k=1}^n X_k \right) = \sum_{k=1}^n \text{Var}(X_k) + 2\sum_{1 \leq k < l \leq n} \text{Cov}(X_k, X_l) \]

由于不放回抽样的\(X_k\)\(X_l\)不独立,因此需要计算协方差项,这是超几何分布方差与二项分布的核心区别。

步骤1:计算单个示性函数的方差

\(X_k\)服从两点分布,成功概率\(\theta = \frac{M}{N}\),因此方差为:

\[\text{Var}(X_k) = \theta(1-\theta) = \frac{M}{N} \cdot \frac{N-M}{N} \]

步骤2:计算两个不同示性函数的协方差\(\text{Cov}(X_k, X_l)\)\(k \neq l\)

协方差的计算公式为:\(\text{Cov}(X_k, X_l) = E(X_k X_l) - E(X_k)E(X_l)\)

首先计算\(E(X_k X_l)\)\(X_k X_l=1\)当且仅当第\(k\)次和第\(l\)次都抽到目标个体,因此:

\[P(X_k X_l=1) = P(X_k=1, X_l=1) = P(X_k=1)P(X_l=1 | X_k=1) \]

  • \(k\)次抽到目标个体的概率为\(\frac{M}{N}\)
  • \(k\)次抽到后,总体剩余\(N-1\)个个体,其中\(M-1\)个目标个体,因此条件概率\(P(X_l=1 | X_k=1) = \frac{M-1}{N-1}\)

因此:

\[P(X_k X_l=1) = \frac{M}{N} \cdot \frac{M-1}{N-1} \]

\[E(X_k X_l) = 1 \cdot P(X_k X_l=1) + 0 \cdot P(X_k X_l=0) = \frac{M(M-1)}{N(N-1)} \]

代入协方差公式:

\[\begin{align*} \text{Cov}(X_k, X_l) &= \frac{M(M-1)}{N(N-1)} - \left( \frac{M}{N} \right)^2 \\ &= \frac{M}{N^2(N-1)} \left[ (M-1)N - M(N-1) \right] \\ &= \frac{M}{N^2(N-1)} \left[ MN - N - MN + M \right] \\ &= \frac{M(M - N)}{N^2(N-1)} \\ &= - \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{1}{N-1} \end{align*} \]

关键结论:协方差为负数,说明不放回抽样中,两次抽取的结果是负相关的:第一次抽到目标个体,第二次抽到的概率会降低,符合不放回抽样的直觉。

步骤3:代入方差公式求和

首先,方差的求和项分为两部分:

  1. 单个方差的和:\(\sum_{k=1}^n \text{Var}(X_k) = n \cdot \frac{M}{N} \cdot \frac{N-M}{N}\)
  2. 协方差的和:共有\(\binom{n}{2} = \frac{n(n-1)}{2}\)个两两协方差项,因此:

    \[2\sum_{1 \leq k < l \leq n} \text{Cov}(X_k, X_l) = 2 \cdot \frac{n(n-1)}{2} \cdot \left( - \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{1}{N-1} \right) = - n(n-1) \cdot \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{1}{N-1} \]

将两部分合并,提取公因子\(n \cdot \frac{M}{N} \cdot \frac{N-M}{N}\)

\[\begin{align*} \text{Var}(X) &= n \cdot \frac{M}{N} \cdot \frac{N-M}{N} - n(n-1) \cdot \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{1}{N-1} \\ &= n \cdot \frac{M}{N} \cdot \frac{N-M}{N} \cdot \left( 1 - \frac{n-1}{N-1} \right) \\ &= n \cdot \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{(N-1) - (n-1)}{N-1} \\ &= n \cdot \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{N - n}{N - 1} \end{align*} \]

与教材给出的方差公式完全一致。


3. 有限总体校正因子的核心意义

方差公式中的\(\frac{N-n}{N-1}\)称为有限总体校正因子(Finite Population Correction, FPC),是超几何分布与二项分布方差的核心区别:

  • 二项分布的方差为\(n\theta(1-\theta) = n \cdot \frac{M}{N} \cdot \frac{N-M}{N}\),超几何分布的方差是二项分布方差乘以校正因子\(\frac{N-n}{N-1}\)
  • 由于\(\frac{N-n}{N-1} < 1\)\(n>1\)时),因此超几何分布的方差恒小于对应二项分布的方差,这是因为不放回抽样的负相关性降低了样本的波动;
  • \(N \to \infty\)时,\(\frac{N-n}{N-1} \to 1\),校正因子趋近于1,超几何分布的方差趋近于二项分布的方差,这就是教材中性质(2)的理论基础。

四、核心性质的严格证明与解析

1. 与二项分布的渐近近似(教材性质2)

定理:当总体容量\(N \to \infty\),且抽样比例\(\frac{n}{N} \to 0\)时,超几何分布\(HG(n,N,M)\)渐近于二项分布\(b(n, \frac{M}{N})\),即

\[h(i|n;N,M) \to b(i|n, \frac{M}{N}) = \binom{n}{i} \left( \frac{M}{N} \right)^i \left( 1 - \frac{M}{N} \right)^{n-i} \]

直观证明
\(N\)极大,抽样比例\(\frac{n}{N}\)极小时,不放回抽样对总体的影响可以忽略不计,每次抽取的成功概率几乎不变,各次抽取近似独立,因此不放回抽样近似于有放回抽样,超几何分布近似于二项分布。

严格推导(极限计算)
将超几何分布的PMF展开:

\[\begin{align*} h(i|n;N,M) &= \frac{\binom{M}{i} \binom{N-M}{n-i}}{\binom{N}{n}} \\ &= \frac{n!}{i!(n-i)!} \cdot \frac{M(M-1)\dots(M-i+1) \cdot (N-M)(N-M-1)\dots(N-M-(n-i)+1)}{N(N-1)\dots(N-n+1)} \\ &= \binom{n}{i} \cdot \prod_{k=0}^{i-1} \frac{M - k}{N - k} \cdot \prod_{l=0}^{n-i-1} \frac{N-M - l}{N - i - l} \end{align*} \]

\(N \to \infty\)\(\frac{M}{N} \to \theta\)(固定),\(\frac{n}{N} \to 0\)时,对固定的\(i,n\),有:

  • \(\frac{M - k}{N - k} \to \theta\)\(\frac{N-M - l}{N - i - l} \to 1-\theta\)
  • 所有乘积项的极限为\(\theta^i (1-\theta)^{n-i}\)

因此:

\[h(i|n;N,M) \to \binom{n}{i} \theta^i (1-\theta)^{n-i} = b(i|n,\theta) \]

得证。

实用准则:实际应用中,当\(\frac{n}{N} \leq 0.05\)(抽样比例不超过5%)时,即可用二项分布近似超几何分布,计算误差可忽略不计。


2. 补充核心性质

  1. 对称性:若\(X \sim HG(n,N,M)\),则\(Y = n - X \sim HG(n,N,N-M)\),即样本中的非目标个体数服从参数为\((n,N,N-M)\)的超几何分布,该性质可用于简化计算。
  2. 可加性:若\(X_1 \sim HG(n_1,N,M)\)\(X_2 \sim HG(n_2,N,M)\),且\(X_1\)\(X_2\)独立(从同一总体中独立抽取两个样本),则\(X_1+X_2\)不服从超几何分布,超几何分布不具备简单可加性,这是与二项分布、负二项分布的重要区别。

五、典型应用场景

  1. 产品质量检验与验收抽样:工业生产中,从一批产品中不放回抽取样本,统计次品数,判断批次是否合格,是超几何分布最经典的应用场景。
  2. 抽样调查:人口普查、市场调查中,从有限总体中不放回抽取样本,统计目标特征的数量,是抽样调查理论的核心概率模型。
  3. 生物统计与生态学:捕获-再捕获(标记-重捕)模型,用于估计野生动物的种群数量,核心原理基于超几何分布。
  4. 彩票与概率游戏:乐透型彩票的中奖概率计算,本质是超几何分布的应用,例如从N个号码中选n个,命中i个中奖号码的概率。
  5. 审计与财务核查:从财务凭证总体中不放回抽取样本,统计错误凭证的数量,用于评估总体的错误率。

六、超几何分布核心信息归纳总结表

项目 核心内容 备注与说明
分布全称 超几何分布 有限总体不放回抽样的离散型概率分布
分布记号 \(X \sim HG(n,N,M)\) 三个参数:\(n\)为样本量,\(N\)为总体容量,\(M\)为总体目标个体数
支撑集 \(i = \max(0, n+M-N), \dots, \min(n, M)\) 超出范围的概率为0,需满足抽样的实际约束
概率质量函数(PMF) $h(i n;N,M) = \frac{\binom{M}{i} \binom{N-M}{n-i}}{\binom{N}{n}}$
数学期望\(E(X)\) \(n \cdot \frac{M}{N}\) 等于样本量乘以总体目标比例,与二项分布期望形式一致
方差\(\text{Var}(X)\) \(n \cdot \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{N-n}{N-1}\) 含有限总体校正因子\(\frac{N-n}{N-1}\),恒小于对应二项分布的方差
与二项分布的关系 \(\frac{n}{N} \leq 0.05\)时,\(HG(n,N,M) \approx b(n, \frac{M}{N})\) 大总体、低抽样比例下,不放回抽样近似有放回抽样
核心特征 各次抽样不独立,成功概率随抽样变化,方差存在有限总体校正 与二项分布的核心区别
典型应用场景 产品质量验收、抽样调查、捕获-再捕获模型、彩票中奖概率计算、财务审计 有限总体抽样的核心概率模型

泊松(Poisson)分布详细讲解与严格推导证明

泊松分布由法国数学家西莫恩·德尼·泊松于1837年提出,是概率论中最重要的离散型分布之一,核心用于描述单位时间/空间内稀有事件发生的次数,是计数数据建模的基础,也是泊松随机过程、广义线性模型的核心理论支撑。我们将从定义、PMF合法性、数字特征、核心性质证明到应用场景,完整拆解该分布的全部内容。


一、基础定义与核心概念澄清

1. 严格公理化定义

\((\Omega, \mathcal{F}, P)\)为概率空间,\(X\)是定义在该空间上的随机变量。若存在参数\(\lambda > 0\)(强度参数),使得\(X\)的支撑集为全体非负整数\(\{0,1,2,\dots\}\),且对任意非负整数\(i\),满足

\[P(X = i) \triangleq p(i|\lambda) = \frac{e^{-\lambda} \lambda^i}{i!} \]

则称随机变量\(X\)服从参数为\(\lambda\)的泊松分布,常用记号为\(X \sim P(\lambda)\),也可记为\(X \sim \text{Poisson}(\lambda)\)

2. 核心概念澄清

  • 术语纠正:教材中提到的“密度函数”,对离散型随机变量而言,严格名称为概率质量函数(PMF);只有连续型随机变量才有概率密度函数(PDF),后续统一使用严格学术术语。
  • 参数\(\lambda\)的物理意义\(\lambda\)是泊松分布的强度参数,代表单位时间/单位空间内,目标事件发生的平均次数,是分布的位置与尺度核心参数。
  • 分布的核心来源:泊松分布是二项分布的极限分布(泊松定理):当二项分布\(b(n,\theta)\)满足\(n \to \infty\)\(\theta \to 0\),且\(n\theta \to \lambda\)(常数)时,二项分布收敛于泊松分布\(P(\lambda)\),这也是泊松分布用于稀有事件建模的理论基础。
  • 标志性特征:泊松分布的期望与方差相等,均为\(\lambda\),这是检验数据是否符合泊松分布的核心依据。

二、概率质量函数(PMF)的合法性验证

合法的PMF必须满足非负性规范性,我们分别严格验证:

  1. 非负性
    对任意非负整数\(i\)\(e^{-\lambda} > 0\)\(\lambda>0\)),\(\lambda^i \geq 0\)\(i! > 0\),因此\(p(i|\lambda) = \frac{e^{-\lambda} \lambda^i}{i!} \geq 0\)恒成立,满足非负性。

  2. 规范性(全概率和为1)
    需证明无穷级数求和\(\sum_{i=0}^\infty p(i|\lambda) = 1\),这里用到指数函数的泰勒展开式:对任意实数\(x\)\(e^x = \sum_{i=0}^\infty \frac{x^i}{i!}\)

    \(x=\lambda\)代入,对PMF求和:

    \[\sum_{i=0}^\infty p(i|\lambda) = \sum_{i=0}^\infty \frac{e^{-\lambda} \lambda^i}{i!} = e^{-\lambda} \cdot \sum_{i=0}^\infty \frac{\lambda^i}{i!} = e^{-\lambda} \cdot e^{\lambda} = 1 \]

    完全满足规范性,是合法的概率质量函数。


三、核心数字特征的严格推导

1. 数学期望\(E(X) = \lambda\)的严格推导

离散型随机变量的数学期望定义为:\(E(X) = \sum_{i=0}^\infty i \cdot p(i|\lambda)\),代入泊松分布的PMF:

\[E(X) = \sum_{i=0}^\infty i \cdot \frac{e^{-\lambda} \lambda^i}{i!} \]

  • \(i=0\)时,求和项为0,求和下限可改为\(i=1\)
  • 利用阶乘性质\(i! = i \cdot (i-1)!\),约去分子的\(i\),提取公因子\(e^{-\lambda}\lambda\)

    \[E(X) = e^{-\lambda}\lambda \sum_{i=1}^\infty \frac{\lambda^{i-1}}{(i-1)!} \]

  • 做变量替换\(k = i-1\),求和范围变为\(k=0\)\(k=\infty\),求和项为指数函数的泰勒展开\(\sum_{k=0}^\infty \frac{\lambda^k}{k!} = e^{\lambda}\),代入得:

    \[E(X) = e^{-\lambda}\lambda \cdot e^{\lambda} = \lambda \]

2. 方差\(\text{Var}(X) = \lambda\)的严格推导

方差的简化计算公式为:\(\text{Var}(X) = E(X^2) - [E(X)]^2\),利用恒等式\(X^2 = X(X-1) + X\),先计算\(E\left[ X(X-1) \right]\)

步骤1:计算\(E\left[ X(X-1) \right]\)

\[E\left[ X(X-1) \right] = \sum_{i=0}^\infty i(i-1) \cdot \frac{e^{-\lambda} \lambda^i}{i!} \]

  • \(i=0\)\(i=1\)时,求和项为0,求和下限改为\(i=2\)
  • 利用阶乘性质\(i! = i(i-1) \cdot (i-2)!\),约去分子的\(i(i-1)\),提取公因子\(e^{-\lambda}\lambda^2\)

    \[E\left[ X(X-1) \right] = e^{-\lambda}\lambda^2 \sum_{i=2}^\infty \frac{\lambda^{i-2}}{(i-2)!} \]

  • 做变量替换\(k = i-2\),求和项为指数函数的泰勒展开,结果为\(e^\lambda\),代入得:

    \[E\left[ X(X-1) \right] = e^{-\lambda}\lambda^2 \cdot e^{\lambda} = \lambda^2 \]

步骤2:计算方差

\[E(X^2) = E\left[ X(X-1) \right] + E(X) = \lambda^2 + \lambda \]

代入方差公式,结合\([E(X)]^2 = \lambda^2\)

\[\text{Var}(X) = (\lambda^2 + \lambda) - \lambda^2 = \lambda \]

泊松分布的期望与方差相等,均为强度参数\(\lambda\)

3. 特征函数的严格推导

特征函数定义为\(\varphi(t) = E\left[ e^{itX} \right]\)\(i\)为虚数单位,\(t \in \mathbb{R}\)),代入PMF:

\[\varphi(t) = \sum_{i=0}^\infty e^{iti} \cdot \frac{e^{-\lambda} \lambda^i}{i!} = e^{-\lambda} \sum_{i=0}^\infty \frac{(\lambda e^{it})^i}{i!} \]

利用指数函数的泰勒展开,\(\sum_{i=0}^\infty \frac{(\lambda e^{it})^i}{i!} = e^{\lambda e^{it}}\),因此:

\[\varphi(t) = e^{-\lambda} \cdot e^{\lambda e^{it}} = e^{-\lambda(1 - e^{it})} \]

与教材给出的特征函数完全一致,是后续证明可加性、渐近正态性的核心工具。


四、核心性质的严格证明与解析

性质1:期望、方差与特征函数

已在第三部分完成严格推导,核心结论为:

  • 特征函数:\(\varphi(t) = e^{-\lambda(1 - e^{it})}\)
  • 数学期望:\(E(X) = \lambda\)
  • 方差:\(\text{Var}(X) = \lambda\),满足\(\text{Var}(X) = E(X)\)

性质2:分布函数与上不完全Γ函数的等价关系

教材给出:泊松分布的累积分布函数\(F(i) = P(X \leq i)\)可表示为

\[P(X \leq i) = \frac{\int_\lambda^\infty e^{-x} x^i dx}{\Gamma(i+1)} = P(Z > \lambda) \triangleq \Gamma(\lambda, i+1) \]

其中\(Z\)服从形状参数为\(i+1\)、率参数为1的伽马分布\(\Gamma(1, i+1)\)

预备知识

  • 完整Γ函数:\(\Gamma(s) = \int_0^\infty e^{-x} x^{s-1} dx\),对正整数\(i\)\(\Gamma(i+1) = i!\)
  • 上不完全Γ函数:\(\Gamma(s, x) = \int_x^\infty e^{-t} t^{s-1} dt\)
  • 正则化上不完全Γ函数:\(Q(s, x) = \frac{\Gamma(s, x)}{\Gamma(s)}\),即教材中记为\(\Gamma(\lambda, i+1)\)的项。

严格证明(数学归纳法+分部积分)

  1. 基础情形\(i=0\)
    左边\(P(X \leq 0) = e^{-\lambda}\);右边\(\frac{1}{\Gamma(1)} \int_\lambda^\infty e^{-x} dx = e^{-\lambda}\),左右相等。
  2. 递推步骤:假设对\(i-1\)成立,对\(i\)的情形,对积分做分部积分(令\(u=x^i\)\(dv=e^{-x}dx\)):

    \[\int_\lambda^\infty e^{-x} x^i dx = \lambda^i e^{-\lambda} + i \int_\lambda^\infty e^{-x} x^{i-1} dx \]

    两边除以\(\Gamma(i+1)=i!\),结合归纳假设,可得:

    \[\frac{1}{\Gamma(i+1)} \int_\lambda^\infty e^{-x} x^i dx = P(X=i) + P(X \leq i-1) = P(X \leq i) \]

    由数学归纳法,等式对所有非负整数\(i\)成立。

该性质建立了离散型泊松分布与连续型伽马分布的深刻联系,是泊松分布参数区间估计、精确假设检验的核心基础。


性质3:PMF的单调性与众数

定理:泊松分布的PMF满足:

  • \(x < \lambda\)时,\(p(x,\lambda)\)\(x\)增大严格递增;
  • \(x > \lambda\)时,\(p(x,\lambda)\)\(x\)增大严格递减;
  • 众数:若\(\lambda\)不是整数,众数为\(\lfloor \lambda \rfloor\)(向下取整);若\(\lambda\)是整数,众数为\(\lambda\)\(\lambda-1\)

严格证明

对任意正整数\(x \geq 1\),计算相邻项的比值:

\[\frac{p(x,\lambda)}{p(x-1,\lambda)} = \frac{\lambda}{x} \]

  • \(\frac{\lambda}{x} > 1\)\(x < \lambda\))时,\(p(x,\lambda) > p(x-1,\lambda)\),PMF递增;
  • \(\frac{\lambda}{x} < 1\)\(x > \lambda\))时,\(p(x,\lambda) < p(x-1,\lambda)\),PMF递减;
  • \(\frac{\lambda}{x} = 1\)\(\lambda\)为整数)时,\(p(x,\lambda) = p(x-1,\lambda)\),两个点概率相等且最大。

性质4:可加性

定理:若\(X_1 \sim P(\lambda_1)\)\(X_2 \sim P(\lambda_2)\),且\(X_1\)\(X_2\)相互独立,则

\[X_1 + X_2 \sim P(\lambda_1 + \lambda_2) \]

严格证明(特征函数法)

  • \(X_1\)的特征函数为\(\varphi_1(t) = e^{-\lambda_1(1 - e^{it})}\)\(X_2\)的特征函数为\(\varphi_2(t) = e^{-\lambda_2(1 - e^{it})}\)
  • 独立随机变量和的特征函数等于各特征函数的乘积:

    \[\varphi_{X_1+X_2}(t) = \varphi_1(t) \cdot \varphi_2(t) = e^{-(\lambda_1+\lambda_2)(1 - e^{it})} \]

  • 该特征函数恰好是参数为\(\lambda_1+\lambda_2\)的泊松分布的特征函数,由特征函数唯一性定理,\(X_1 + X_2 \sim P(\lambda_1 + \lambda_2)\)

该性质可推广到任意有限个独立泊松随机变量之和。


性质5:条件分布为二项分布

定理:若\(X_1 \sim P(\lambda_1)\)\(X_2 \sim P(\lambda_2)\),且\(X_1\)\(X_2\)相互独立,则在给定\(X_1 + X_2 = k\)的条件下,\(X_1\)的条件分布为二项分布\(b\left( k, \frac{\lambda_1}{\lambda_1 + \lambda_2} \right)\)

严格证明

根据条件概率定义:

\[P(X_1 = i | X_1 + X_2 = k) = \frac{P(X_1 = i, X_2 = k-i)}{P(X_1 + X_2 = k)} \]

  • 分子:由独立性,\(P(X_1 = i, X_2 = k-i) = \frac{e^{-\lambda_1} \lambda_1^i}{i!} \cdot \frac{e^{-\lambda_2} \lambda_2^{k-i}}{(k-i)!}\)
  • 分母:由可加性,\(X_1+X_2 \sim P(\lambda_1+\lambda_2)\),故\(P(X_1+X_2=k) = \frac{e^{-(\lambda_1+\lambda_2)} (\lambda_1+\lambda_2)^k}{k!}\)

代入化简后可得:

\[P(X_1 = i | X_1 + X_2 = k) = \binom{k}{i} \left( \frac{\lambda_1}{\lambda_1 + \lambda_2} \right)^i \left( \frac{\lambda_2}{\lambda_1 + \lambda_2} \right)^{k-i} \]

恰好是二项分布的PMF,证明完毕。


性质6:渐近正态性(中心极限定理)

定理:若\(X \sim P(\lambda)\),则标准化后的随机变量\(Y_\lambda = \frac{X - \lambda}{\sqrt{\lambda}}\),当\(\lambda \to +\infty\)时,依分布收敛于标准正态分布\(N(0,1)\)

严格证明(特征函数法,教材推导详解)

  1. 写出\(Y_\lambda\)的特征函数:

    \[\varphi_{Y_\lambda}(t) = E\left[ e^{it \cdot \frac{X - \lambda}{\sqrt{\lambda}}} \right] = \exp\left\{ \lambda(e^{it/\sqrt{\lambda}} - 1) - it\sqrt{\lambda} \right\} \]

  2. \(e^{it/\sqrt{\lambda}}\)做麦克劳林展开(\(\lambda \to +\infty\)时,\(\frac{t}{\sqrt{\lambda}} \to 0\)):

    \[e^{it/\sqrt{\lambda}} = 1 + \frac{it}{\sqrt{\lambda}} - \frac{t^2}{2\lambda} + o\left( \frac{1}{\lambda} \right) \]

  3. 代入指数内化简:

    \[\lambda(e^{it/\sqrt{\lambda}} - 1) - it\sqrt{\lambda} = -\frac{t^2}{2} + o(1) \]

  4. 取极限:

    \[\lim_{\lambda \to +\infty} \varphi_{Y_\lambda}(t) = e^{-t^2/2} \]

    \(e^{-t^2/2}\)是标准正态分布的特征函数,由特征函数连续性定理,\(Y_\lambda\)依分布收敛于\(N(0,1)\)

实用意义:当\(\lambda \geq 20\)时,可用正态分布\(N(\lambda, \lambda)\)近似泊松分布,大幅简化大\(\lambda\)下的概率计算。


五、典型应用场景

  1. 稀有事件计数建模:利用泊松定理,对二项分布中\(n\)大、\(\theta\)小的稀有事件(如交通事故、产品缺陷、罕见病发病数),用泊松分布近似计算概率。
  2. 单位时间/空间的事件计数:呼叫中心的电话呼入次数、网站用户访问量、显微镜下的细菌菌落数、区域内的地震发生次数,这类计数数据的核心建模工具就是泊松分布。
  3. 随机过程基础:泊松分布是泊松过程的一维分布,是排队论、可靠性工程、金融随机分析中最基础的计数过程。
  4. 广义线性模型:泊松回归是广义线性模型的核心分支,用于拟合响应变量为计数数据的回归问题,广泛应用于流行病学、计量经济学等领域。
  5. 统计过程控制:控制图中的c图、u图核心基于泊松分布,用于监控生产过程中的缺陷数、不合格品数。

六、泊松分布核心信息归纳总结表

项目 核心内容 备注与说明
分布全称 泊松(Poisson)分布 离散型计数分布,稀有事件建模的核心工具
分布记号 \(X \sim P(\lambda)\)\(X \sim \text{Poisson}(\lambda)\) \(\lambda\)为强度参数,\(\lambda > 0\),代表事件发生的平均次数
支撑集 \(\{0,1,2,\dots\}\) 全体非负整数
概率质量函数(PMF) $p(i \lambda) = \frac{e^{-\lambda} \lambda^i}{i!}, \quad i=0,1,2,\dots$
数学期望\(E(X)\) \(\lambda\) 等于强度参数,代表事件发生的平均次数
方差\(\text{Var}(X)\) \(\lambda\) 与期望相等,是泊松分布的标志性特征
特征函数\(\varphi(t)\) \(e^{-\lambda(1 - e^{it})}\) 用于证明可加性、渐近正态性
PMF单调性与众数 1. \(x < \lambda\)时PMF递增,\(x > \lambda\)时递减
2. \(\lambda\)非整数时,众数为\(\lfloor \lambda \rfloor\)
3. \(\lambda\)为整数时,众数为\(\lambda\)\(\lambda-1\)
由相邻项比值\(\lambda/x\)与1的大小关系推导
可加性 \(X_i \sim P(\lambda_i)\)且相互独立,则\(\sum_{i=1}^k X_i \sim P\left( \sum_{i=1}^k \lambda_i \right)\) 要求变量相互独立,可推广到任意有限个变量
条件分布性质 \(X_1 \sim P(\lambda_1), X_2 \sim P(\lambda_2)\)独立,则$(X_1 X_1+X_2=k) \sim b\left(k, \frac{\lambda_1}{\lambda_1+\lambda_2} \right)$
与其他分布的关系 1. 二项分布\(b(n,\theta)\)\(n\to\infty, n\theta\to\lambda\)时收敛于\(P(\lambda)\)
2. 累积分布函数与上不完全Γ函数等价
3. \(\lambda\to+\infty\)时,渐近于正态分布\(N(\lambda,\lambda)\)
连接了二项分布、伽马分布、正态分布
渐近正态性 \(\frac{X-\lambda}{\sqrt{\lambda}} \xrightarrow{d} N(0,1) \ (\lambda\to+\infty)\) 泊松分布的中心极限定理,大样本近似的核心
典型应用场景 稀有事件概率计算、计数数据建模、泊松过程、泊松回归、统计过程控制、排队论 是计数数据统计分析的核心基础分布

多点分布(分类分布)详细讲解与严格推导证明

多点分布也叫分类分布(Categorical Distribution),是两点分布(伯努利分布)在多分类场景下的多元推广,是单次多分类随机试验的标准概率模型,也是多项分布的基础单元,是分类数据统计建模、机器学习多分类任务的核心基础分布。我们将从定义、概率质量函数、数字特征严格推导、核心性质解析到应用场景,完整拆解该分布的全部内容。


一、基础定义与核心概念澄清

1. 严格公理化定义

\((\Omega, \mathcal{F}, P)\)为概率空间,\(A_1,A_2,\dots,A_k\)为样本空间\(\Omega\)的一个完备划分,即满足:

  1. 两两互斥:\(A_i \cap A_j = \emptyset, \ \forall i \neq j\)
  2. 覆盖全集:\(\bigcup_{i=1}^k A_i = \Omega\)
  3. 概率约束:\(P(A_i) = \pi_i, \ i=1,2,\dots,k\),且\(\sum_{i=1}^k \pi_i = 1\),其中\(\pi_i \geq 0\)

定义\(k\)维随机向量\(X = (X_1,X_2,\dots,X_k)^T\),其中每个分量\(X_i\)为事件\(A_i\)的示性函数:

\[X_i = \begin{cases} 1, & \text{试验中事件} \ A_i \ \text{发生} \\ 0, & \text{试验中事件} \ A_i \ \text{不发生} \end{cases}\]

显然满足约束\(\sum_{i=1}^k X_i = 1\)(一次试验有且仅有一个类别发生),则称随机向量\(X\)服从参数为\(\pi\)的多点分布,常用记号为\(X \sim MN(1, \pi)\),也可记为\(X \sim \text{Cat}(\pi)\)(分类分布),其中\(\pi = (\pi_1,\pi_2,\dots,\pi_k)^T\)\(k\)维概率向量。

2. 核心概念澄清

  1. 与两点分布的关系:当\(k=2\)时,多点分布直接退化为两点分布(伯努利分布)。此时\(A_1=A, A_2=\overline{A}\)\(X_1 \sim b(1,\pi_1)\)\(X_2=1-X_1\),完全与两点分布等价,因此多点分布是两点分布在\(k\)个互斥类别上的多元推广。
  2. 与多项分布的关系:多点分布是多项分布当试验次数\(n=1\)时的特例,多项分布\(MN(n,\pi)\)描述\(n\)次独立多分类试验的类别计数,其本质是\(n\)个独立同分布的多点分布随机向量的和,与“二项分布是\(n\)个两点分布的和”形成完全对应的理论体系。
  3. 参数的物理意义:唯一参数\(\pi\)\(k\)维概率向量,\(\pi_i\)代表单次试验中第\(i\)个类别发生的概率,满足非负性与和为1的约束,是分布的核心特征。
  4. 随机向量的约束:核心约束\(\sum_{i=1}^k X_i=1\)决定了多点分布的随机向量存在线性依赖,其协方差矩阵为奇异矩阵(秩为\(k-1\)),是该分布的重要代数特征。

二、概率质量函数(PMF)的推导与合法性验证

1. 联合概率质量函数的严格推导

离散型随机向量的联合PMF定义为\(p(x_1,x_2,\dots,x_k) = P(X_1=x_1, X_2=x_2, \dots, X_k=x_k)\)

对于多点分布,随机向量的合法取值必须满足两个条件:

  • 每个分量\(x_i \in \{0,1\}\)(示性函数仅取0或1);
  • \(\sum_{i=1}^k x_i = 1\)(一次试验仅有一个类别发生)。

对合法取值,假设第\(m\)个分量\(x_m=1\),其余分量均为0,则事件\(\{X_1=x_1,\dots,X_k=x_k\}\)等价于事件\(A_m\)发生,因此概率为\(\pi_m\)

我们可以将所有合法取值的概率统一为乘积形式:

\[p(x_1,x_2,\dots,x_k) = \pi_1^{x_1} \pi_2^{x_2} \dots \pi_k^{x_k} \]

验证一致性:当\(x_m=1\)、其余\(x_i=0\)时,\(p(x_1,\dots,x_k) = \pi_m^1 \cdot \prod_{i \neq m} \pi_i^0 = \pi_m\),与定义完全一致。


2. PMF的合法性验证

合法的联合PMF必须满足非负性规范性,我们分别严格验证:

  1. 非负性:对所有合法取值,\(\pi_i \geq 0\)\(x_i \in \{0,1\}\),因此\(\pi_i^{x_i} \geq 0\),乘积\(p(x_1,\dots,x_k) \geq 0\)恒成立,满足非负性。
  2. 规范性:所有合法取值的概率和为1。多点分布共有\(k\)个合法取值(对应\(k\)个类别分别发生),因此:

    \[\sum_{\text{所有合法} \ (x_1,\dots,x_k)} p(x_1,\dots,x_k) = \sum_{m=1}^k \pi_m = 1 \]

    完全满足规范性,是合法的联合概率质量函数。

三、核心数字特征的严格推导

1. 边缘分布与单个分量的数字特征

对于多点分布的任意分量\(X_i\),我们先推导其边缘分布:
\(X_i\)是事件\(A_i\)的示性函数,仅取0和1两个值:

  • \(P(X_i=1) = P(A_i) = \pi_i\)
  • \(P(X_i=0) = P(\overline{A_i}) = 1 - \pi_i\)

因此每个分量\(X_i\)服从参数为\(\pi_i\)的两点分布,即\(X_i \sim b(1,\pi_i)\)

基于两点分布的数字特征,直接得到:

  • 数学期望:\(E(X_i) = \pi_i, \ i=1,2,\dots,k\)
  • 方差:\(\text{Var}(X_i) = \pi_i(1-\pi_i), \ i=1,2,\dots,k\)

2. 分量间的协方差严格推导

两个随机变量的协方差定义为\(\text{Cov}(X_i,X_j) = E(X_i X_j) - E(X_i)E(X_j)\),我们分两种情况讨论:

情况1:\(i = j\)

此时\(\text{Cov}(X_i,X_i) = \text{Var}(X_i) = \pi_i(1-\pi_i)\),与单个分量的方差一致。

情况2:\(i \neq j\)

由于\(A_i\)\(A_j\)互斥,\(X_i\)\(X_j\)不可能同时取1,因此\(X_i X_j \equiv 0\),其期望\(E(X_i X_j) = 0\)

代入协方差公式:

\[\text{Cov}(X_i,X_j) = 0 - \pi_i \cdot \pi_j = -\pi_i \pi_j, \quad i \neq j \]

综上,多点分布分量的协方差为:

\[\text{Cov}(X_i,X_j) = \begin{cases} \pi_i(1-\pi_i), & i = j \\ -\pi_i \pi_j, & i \neq j \end{cases}\]


3. 期望向量与协方差矩阵的向量形式

对于\(k\)维随机向量\(X\),我们可以将期望和协方差用矩阵形式统一表达,即教材中给出的公式(1.2.6)。

(1)期望向量

随机向量的期望向量为各分量期望组成的向量:

\[E(X) = \begin{pmatrix} E(X_1) \\ E(X_2) \\ \vdots \\ E(X_k) \end{pmatrix} = \begin{pmatrix} \pi_1 \\ \pi_2 \\ \vdots \\ \pi_k \end{pmatrix} = \pi \]

(2)协方差矩阵

\(k\)维随机向量的协方差矩阵\(\text{Var}(X)\)\(k \times k\)矩阵,第\((i,j)\)个元素为\(\text{Cov}(X_i,X_j)\)

我们引入两个矩阵:

  1. 对角矩阵\(\text{diag}(\pi)\):对角元为\(\pi_1,\pi_2,\dots,\pi_k\),其余元素为0;
  2. 外积矩阵\(\pi \pi^T\)\(k \times k\)矩阵,第\((i,j)\)个元素为\(\pi_i \pi_j\)

则协方差矩阵可简洁表示为:

\[\text{Var}(X) = \text{diag}(\pi) - \pi \pi^T \]

严格验证

  • 对角元(\(i=j\)):\(\text{diag}(\pi)\)的对角元为\(\pi_i\)\(\pi \pi^T\)的对角元为\(\pi_i^2\),因此对角元为\(\pi_i - \pi_i^2 = \pi_i(1-\pi_i)\),与方差一致;
  • 非对角元(\(i \neq j\)):\(\text{diag}(\pi)\)的非对角元为0,\(\pi \pi^T\)的非对角元为\(\pi_i \pi_j\),因此非对角元为\(0 - \pi_i \pi_j = -\pi_i \pi_j\),与协方差一致。

补充性质:该协方差矩阵是半正定奇异矩阵,秩为\(k-1\),原因是随机向量满足线性约束\(\sum_{i=1}^k X_i=1\),存在线性依赖,因此矩阵不可逆,秩亏1。


四、核心性质与补充说明

1. 与多项分布的核心联系

多点分布是多项分布的基础单元:若\(X_1,X_2,\dots,X_n\)独立同分布于\(MN(1,\pi)\),则它们的和\(Y = \sum_{t=1}^n X_t\)服从多项分布\(MN(n,\pi)\),即

\[P(Y_1=y_1,\dots,Y_k=y_k) = \frac{n!}{y_1!y_2!\dots y_k!} \pi_1^{y_1}\pi_2^{y_2}\dots\pi_k^{y_k}, \quad \sum_{i=1}^k y_i = n \]

该性质与“二项分布是\(n\)个独立两点分布的和”完全对应,是多项分布的定义基础。

2. 指数族属性

多点分布属于多元指数族分布,其PMF可改写为指数族标准形式:

\[p(x_1,\dots,x_k) = \exp\left\{ \sum_{i=1}^{k-1} x_i \log\left( \frac{\pi_i}{\pi_k} \right) + \log \pi_k \right\} \]

该形式是多分类logistic回归的理论核心,为多分类数据的回归建模提供了理论基础。

3. 退化性质

\(k=1\)时,多点分布退化为单点分布,此时\(X_1 \equiv 1\)\(P(X_1=1)=1\),与单点分布完全兼容,形成了完整的理论体系。


五、典型应用场景

  1. 单次多分类试验建模:所有单次试验有\(k\)个互斥结果的场景,例如掷标准骰子(\(k=6\))、产品质量等级划分、用户职业/性别/偏好分类、投票意向统计等,是分类数据的基础概率模型。
  2. 机器学习多分类任务:多分类logistic回归、朴素贝叶斯分类器、决策树的叶节点分布、隐马尔可夫模型的观测概率分布,均以多点分布为核心建模单元。
  3. 多项分布的基础单元\(n\)次独立多分类试验的计数建模(如多次掷骰子的点数分布、多次抽样的类别计数),均以多点分布为最小组成单元。
  4. 抽样调查与市场研究:消费者品牌选择、产品口味偏好、服务满意度分级等多分类结果的统计分析,均基于多点分布的理论框架。

六、多点分布核心信息归纳总结表

项目 核心内容 备注与说明
分布全称 多点分布 也叫分类分布、类别分布,是两点分布的多元推广
分布记号 \(X \sim MN(1,\pi)\)\(X \sim \text{Cat}(\pi)\) \(MN\)为多项分布记号,\(n=1\)对应单次试验;\(\pi\)\(k\)维概率向量
核心参数 \(k\)维概率向量\(\pi=(\pi_1,\dots,\pi_k)^T\) 满足\(\pi_i \geq 0\)\(\sum_{i=1}^k \pi_i=1\)\(\pi_i\)为第\(i\)个类别发生的概率
随机向量约束 \(X=(X_1,\dots,X_k)^T\)\(X_i \in \{0,1\}\)\(\sum_{i=1}^k X_i=1\) 一次试验有且仅有一个类别发生
联合概率质量函数 \(p(x_1,\dots,x_k) = \prod_{i=1}^k \pi_i^{x_i}\),其中\(x_i \in \{0,1\}\)\(\sum x_i=1\) 仅当一个分量为1、其余为0时概率非零
边缘分布 每个分量\(X_i \sim b(1,\pi_i)\)(两点分布) 单个类别的发生与否服从两点分布
期望向量 \(E(X) = \pi\) 期望向量等于概率向量\(\pi\)
单个分量方差 \(\text{Var}(X_i) = \pi_i(1-\pi_i)\) 与两点分布的方差一致
分量间协方差 \(\text{Cov}(X_i,X_j) = \begin{cases} \pi_i(1-\pi_i), & i=j \\ -\pi_i\pi_j, & i \neq j \end{cases}\) 不同分量间为负协方差,类别间存在互斥约束
协方差矩阵 \(\text{Var}(X) = \text{diag}(\pi) - \pi\pi^T\) 半正定奇异矩阵,秩为\(k-1\)
与其他分布的关系 1. \(k=2\)时退化为两点分布\(b(1,\pi_1)\)
2. \(n\)个独立同分布的多点分布之和服从多项分布\(MN(n,\pi)\)
3. \(k=1\)时退化为单点分布
连接了单点分布、两点分布、多项分布
核心属性 属于多元指数族分布,是多分类广义线性模型的理论基础 为分类数据建模提供了统一框架
典型应用场景 单次多分类试验建模、机器学习多分类任务、多项分布基础单元、抽样调查与市场研究、分类数据统计分析 是多分类离散数据建模的核心基础分布

多项分布详细讲解与严格推导证明

多项分布是二项分布在多分类场景下的多元推广,是n次独立重复多分类试验的标准概率模型,也是分类数据统计分析、列联表检验、多分类回归的核心理论基础。它与多点分布(单次多分类试验)的关系,完全对应二项分布与两点分布的关系,形成了完整的离散型多分类分布理论体系。我们将从定义、PMF推导、数字特征、核心性质证明到应用场景,完整拆解该分布的全部内容。


一、基础定义与核心概念澄清

1. 严格公理化定义

\((\Omega, \mathcal{F}, P)\)为概率空间,\(A_1,A_2,\dots,A_k\)为单次试验的样本空间的完备划分,满足:

  1. 两两互斥:\(A_i \cap A_j = \emptyset, \ \forall i \neq j\)
  2. 覆盖全集:\(\bigcup_{i=1}^k A_i = \Omega\)
  3. 概率约束:单次试验中\(P(A_i) = \pi_i\),满足\(\pi_i \geq 0\)\(\sum_{i=1}^k \pi_i = 1\)

独立重复进行\(n\)次该试验,定义\(k\)维随机向量\(X = (X_1,X_2,\dots,X_k)^T\),其中分量\(X_i\)表示\(n\)次试验中事件\(A_i\)发生的次数,则称随机向量\(X\)服从参数为\((n,\pi)\)的多项分布,常用记号为\(X \sim MN(n, \pi)\),其中\(\pi = (\pi_1,\pi_2,\dots,\pi_k)^T\)\(k\)维概率向量。

2. 核心概念澄清

  1. 与二项分布的关系:当\(k=2\)时,多项分布直接退化为二项分布。此时\(X_1 \sim b(n,\pi_1)\)\(X_2 = n - X_1 \sim b(n,\pi_2)\)\(\pi_2=1-\pi_1\),完全与二项分布等价,因此多项分布是二项分布在\(k\)个互斥类别上的多元推广。
  2. 与多点分布的关系:当\(n=1\)时,多项分布退化为多点分布(分类分布)\(MN(1,\pi)\),对应单次多分类试验。多项分布的本质是\(n\)个独立同分布的多点分布随机向量的和,与“二项分布是\(n\)个独立两点分布的和”形成完全对应的理论体系。
  3. 参数的物理意义
    • \(n\):独立重复试验的总次数;
    • \(\pi\)\(k\)维概率向量,\(\pi_i\)为单次试验中第\(i\)个类别发生的概率。
  4. 支撑集约束:随机向量的合法取值必须满足:
    • 每个分量\(X_i\)为非负整数;
    • 分量和约束:\(\sum_{i=1}^k X_i = n\)(所有类别发生的总次数等于试验总次数)。

二、联合概率质量函数(PMF)的推导与合法性验证

1. PMF的严格推导

我们基于古典概型与试验独立性,推导多项分布的联合PMF:
对于满足\(\sum_{i=1}^k j_i = n\)的非负整数\(j_1,j_2,\dots,j_k\),我们需要计算\(P(X_1=j_1,X_2=j_2,\dots,X_k=j_k)\),分两步分析:

  1. 组合计数:排列方式总数
    \(n\)次试验中,事件\(A_1\)发生\(j_1\)次、\(A_2\)发生\(j_2\)次、…、\(A_k\)发生\(j_k\)次,本质是对\(n\)个试验结果进行多组划分,总排列数为多项式系数

    \[\frac{n!}{j_1! j_2! \dots j_k!} \]

    该系数是二项分布组合数\(\binom{n}{j} = \frac{n!}{j!(n-j)!}\)在多分类场景的推广。

  2. 单种排列的概率
    由于各次试验相互独立,“指定\(j_1\)\(A_1\)\(j_2\)\(A_2\)、…、\(j_k\)\(A_k\)”的概率为各次试验概率的乘积:

    \[\underbrace{\pi_1 \cdot \pi_1 \cdot \dots \cdot \pi_1}_{j_1个} \cdot \underbrace{\pi_2 \cdot \pi_2 \cdot \dots \cdot \pi_2}_{j_2个} \cdot \dots \cdot \underbrace{\pi_k \cdot \pi_k \cdot \dots \cdot \pi_k}_{j_k个} = \pi_1^{j_1} \pi_2^{j_2} \dots \pi_k^{j_k} \]

  3. 总概率计算
    不同排列对应的事件两两互斥,根据概率的有限可加性,总概率为排列数乘以单种排列的概率,即:

    \[P(X_1 = j_1,X_2 = j_2,\dots,X_k = j_k) = \frac{n!}{j_1! j_2! \dots j_k!} \pi_1^{j_1} \pi_2^{j_2} \dots \pi_k^{j_k}, \quad \sum_{i=1}^k j_i = n \]

    与教材给出的PMF完全一致。


2. PMF的合法性验证

合法的联合PMF必须满足非负性规范性,我们分别严格验证:

  1. 非负性:对所有合法取值,多项式系数\(\frac{n!}{j_1!\dots j_k!} > 0\)\(\pi_i \geq 0\),因此\(\pi_1^{j_1}\dots\pi_k^{j_k} \geq 0\),故\(P(X_1=j_1,\dots,X_k=j_k) \geq 0\)恒成立,满足非负性。

  2. 规范性(全概率和为1)
    需证明所有合法取值的概率和为1,这里用到多项式定理:对任意实数\(x_1,x_2,\dots,x_k\)和正整数\(n\),有

    \[(x_1 + x_2 + \dots + x_k)^n = \sum_{\substack{j_1,\dots,j_k \geq 0 \\ \sum j_i = n}} \frac{n!}{j_1! j_2! \dots j_k!} x_1^{j_1} x_2^{j_2} \dots x_k^{j_k} \]

    \(x_i = \pi_i\),结合\(\sum_{i=1}^k \pi_i = 1\),代入得:

    \[\sum_{\substack{j_1,\dots,j_k \geq 0 \\ \sum j_i = n}} \frac{n!}{j_1! \dots j_k!} \pi_1^{j_1} \dots \pi_k^{j_k} = \left( \sum_{i=1}^k \pi_i \right)^n = 1^n = 1 \]

    完全满足规范性,是合法的联合概率质量函数。


三、核心分解:独立多点分布的和

教材中给出的分解式是推导多项分布所有性质的核心工具,我们先明确定义,再说明其深层意义。

1. 分解式的严格定义

\(X \sim MN(n,\pi)\),则\(X\)可以表示为\(n\)独立同分布的多点分布随机向量之和,即:

\[X = \sum_{m=1}^n X^m \]

其中\(X^m = (X_1^m,X_2^m,\dots,X_k^m)^T\)是第\(m\)次试验对应的多点分布随机向量,定义为:

\[X_i^m = \begin{cases} 1, & 第m次试验中事件A_i发生 \\ 0, & 第m次试验中事件A_i不发生 \end{cases}\]

\(X^1,X^2,\dots,X^n\)相互独立,每个\(X^m \sim MN(1,\pi)\)(多点分布)。

2. 分解式的核心推论

  1. 边缘分布为二项分布:对任意分量\(X_i\),有\(X_i = \sum_{m=1}^n X_i^m\),其中每个\(X_i^m \sim b(1,\pi_i)\)(两点分布),且相互独立。因此\(X_i\)\(n\)个独立两点分布的和,服从二项分布\(b(n,\pi_i)\),即

    \[X_i \sim b(n,\pi_i), \quad i=1,2,\dots,k \]

  2. 简化性质推导:多项分布的期望、方差、特征函数、可加性等所有性质,都可以通过多点分布的对应性质直接推导,无需复杂的多元求和。

四、核心数字特征的严格推导

1. 期望向量\(E(X) = n\pi\)的严格推导

随机向量的期望向量为各分量期望组成的向量。对于任意分量\(X_i\),由于\(X_i \sim b(n,\pi_i)\),二项分布的期望为\(E(X_i) = n\pi_i\),因此:

\[E(X) = \begin{pmatrix} E(X_1) \\ E(X_2) \\ \vdots \\ E(X_k) \end{pmatrix} = \begin{pmatrix} n\pi_1 \\ n\pi_2 \\ \vdots \\ n\pi_k \end{pmatrix} = n\pi \]

也可通过分解式直接推导:\(E(X) = E\left( \sum_{m=1}^n X^m \right) = \sum_{m=1}^n E(X^m) = \sum_{m=1}^n \pi = n\pi\),与上述结果一致。


2. 协方差矩阵\(\text{Var}(X) = n\left[ \text{diag}(\pi) - \pi\pi^T \right]\)的严格推导

\(k\)维随机向量的协方差矩阵为\(k \times k\)矩阵,第\((i,j)\)个元素为\(\text{Cov}(X_i,X_j)\)。我们通过分解式结合多点分布的协方差矩阵推导:

  1. 单个多点分布的协方差矩阵
    对于单个多点分布\(X^m \sim MN(1,\pi)\),其协方差矩阵为(已在多点分布章节严格证明):

    \[\text{Var}(X^m) = \text{diag}(\pi) - \pi\pi^T \]

    其中:

    • 对角元(\(i=j\)):\(\text{Var}(X_i^m) = \pi_i(1-\pi_i)\)
    • 非对角元(\(i \neq j\)):\(\text{Cov}(X_i^m,X_j^m) = -\pi_i\pi_j\)
  2. 独立随机向量和的协方差矩阵
    对于独立同分布的随机向量\(X^1,\dots,X^n\),和的协方差矩阵等于单个向量协方差矩阵的\(n\)倍,即:

    \[\text{Var}(X) = \text{Var}\left( \sum_{m=1}^n X^m \right) = \sum_{m=1}^n \text{Var}(X^m) = n \cdot \text{Var}(X^m) \]

因此,多项分布的协方差矩阵为:

\[\text{Var}(X) = n\left[ \text{diag}(\pi) - \pi\pi^T \right] \]

分量形式验证

  • 对角元(\(i=j\)):\(\text{Var}(X_i) = n\pi_i(1-\pi_i)\),与二项分布的方差完全一致;
  • 非对角元(\(i \neq j\)):\(\text{Cov}(X_i,X_j) = -n\pi_i\pi_j\),负号体现了类别间的互斥性:总试验次数固定时,一个类别发生的次数越多,另一个类别的发生次数越少,因此呈负相关。

补充性质:该协方差矩阵为半正定奇异矩阵,秩为\(k-1\),原因是随机向量满足线性约束\(\sum_{i=1}^k X_i = n\),存在线性依赖,因此矩阵不可逆,秩亏1。


3. 特征函数的严格推导

多元随机向量的特征函数定义为:

\[\varphi(t) = E\left[ e^{i X^T t} \right], \quad t = (t_1,t_2,\dots,t_k)^T \in \mathbb{R}^k \]

其中\(i\)为虚数单位。

我们通过分解式推导:

  1. 单个多点分布\(X^m\)的特征函数为:

    \[\varphi_{X^m}(t) = E\left[ e^{i (X^m)^T t} \right] = \sum_{i=1}^k \pi_i e^{i t_i} \]

    (仅当单个\(X_i^m=1\)时概率非零,因此求和结果为\(\sum \pi_i e^{i t_i}\)

  2. 独立随机向量和的特征函数等于各特征函数的乘积,因此多项分布的特征函数为:

    \[\varphi(t) = \prod_{m=1}^n \varphi_{X^m}(t) = \left( \pi_1 e^{i t_1} + \pi_2 e^{i t_2} + \dots + \pi_k e^{i t_k} \right)^n \]

    与教材给出的公式完全一致。


五、核心性质的严格证明

1. 可加性

定理:若\(X_1 \sim MN(n_1, \pi)\)\(X_2 \sim MN(n_2, \pi)\),且\(X_1\)\(X_2\)相互独立,则

\[X_1 + X_2 \sim MN(n_1 + n_2, \pi) \]

严格证明(特征函数法)

  • \(X_1\)的特征函数为\(\varphi_1(t) = \left( \sum_{i=1}^k \pi_i e^{i t_i} \right)^{n_1}\)
  • \(X_2\)的特征函数为\(\varphi_2(t) = \left( \sum_{i=1}^k \pi_i e^{i t_i} \right)^{n_2}\)
  • 由于\(X_1\)\(X_2\)独立,\(X_1+X_2\)的特征函数为:

    \[\varphi(t) = \varphi_1(t) \cdot \varphi_2(t) = \left( \sum_{i=1}^k \pi_i e^{i t_i} \right)^{n_1 + n_2} \]

  • 该特征函数恰好是参数为\(n_1+n_2, \pi\)的多项分布的特征函数,由特征函数唯一性定理,\(X_1 + X_2 \sim MN(n_1 + n_2, \pi)\),得证。

该性质可推广到任意有限个独立同\(\pi\)的多项分布之和,与二项分布的可加性完全对应。


2. 条件分布与泊松分布的关系(教材性质5)

定理:若\(X_1,X_2,\dots,X_k\)相互独立,且\(X_i \sim P(\lambda_i)\)(泊松分布),则在给定\(X_1 + X_2 + \dots + X_k = n\)的条件下,随机向量\((X_1,X_2,\dots,X_k)^T\)服从多项分布\(MN(n, \pi)\),其中\(\pi_i = \frac{\lambda_i}{\sum_{j=1}^k \lambda_j}, \ i=1,2,\dots,k\)

严格证明(条件概率定义+泊松分布性质)

  1. 条件概率展开:根据条件概率定义,对满足\(\sum_{i=1}^k x_i = n\)的非负整数\(x_1,\dots,x_k\),有

    \[P(X_1=x_1,\dots,X_k=x_k | \sum_{i=1}^k X_i = n) = \frac{P(X_1=x_1,\dots,X_k=x_k, \sum_{i=1}^k X_i = n)}{P(\sum_{i=1}^k X_i = n)} \]

  2. 分子计算(联合概率):由于\(X_1,\dots,X_k\)相互独立,联合概率为各边缘概率的乘积:

    \[P(X_1=x_1,\dots,X_k=x_k) = \prod_{i=1}^k \frac{e^{-\lambda_i} \lambda_i^{x_i}}{x_i!} = e^{-\sum_{i=1}^k \lambda_i} \cdot \frac{\lambda_1^{x_1} \lambda_2^{x_2} \dots \lambda_k^{x_k}}{x_1! x_2! \dots x_k!} \]

    \(\sum x_i = n\)时,事件\(\{X_1=x_1,\dots,X_k=x_k\}\)\(\{X_1=x_1,\dots,X_k=x_k, \sum X_i =n\}\)完全等价,因此分子等于上式。

  3. 分母计算(和的边缘概率):根据泊松分布的可加性,独立泊松变量的和仍服从泊松分布,即\(\sum_{i=1}^k X_i \sim P\left( \sum_{i=1}^k \lambda_i \right)\),因此:

    \[P\left( \sum_{i=1}^k X_i = n \right) = \frac{e^{-\sum_{i=1}^k \lambda_i} \cdot \left( \sum_{i=1}^k \lambda_i \right)^n}{n!} \]

  4. 化简条件概率:将分子分母代入条件概率公式,约去公共项\(e^{-\sum \lambda_i}\),整理得:

    \[\begin{align*} P(X_1=x_1,\dots,X_k=x_k | \sum X_i =n) &= \frac{n!}{x_1! x_2! \dots x_k!} \cdot \frac{\lambda_1^{x_1} \lambda_2^{x_2} \dots \lambda_k^{x_k}}{\left( \sum_{j=1}^k \lambda_j \right)^n} \\ &= \frac{n!}{x_1! \dots x_k!} \cdot \left( \frac{\lambda_1}{\sum \lambda_j} \right)^{x_1} \cdot \left( \frac{\lambda_2}{\sum \lambda_j} \right)^{x_2} \cdot \dots \cdot \left( \frac{\lambda_k}{\sum \lambda_j} \right)^{x_k} \end{align*} \]

    \(\pi_i = \frac{\lambda_i}{\sum_{j=1}^k \lambda_j}\),则\(\sum_{i=1}^k \pi_i =1\),上式恰好是多项分布\(MN(n,\pi)\)的PMF,因此条件分布为多项分布,得证。

该性质是贝叶斯统计中泊松分布与多项分布共轭性的核心基础,也是文本主题模型、列联表分析的重要理论依据。


六、典型应用场景

  1. 多分类试验计数建模:所有n次独立多分类试验的计数场景,例如:n次掷骰子各点数出现的次数、市场调查中n个用户的品牌选择计数、生物统计中n个样本的表型分类计数、遗传学中后代基因型的数量统计。
  2. 分类数据统计推断:列联表的卡方拟合优度检验、独立性检验,其核心假设是单元格计数服从多项分布,是分类数据统计分析的基础。
  3. 多分类回归建模:多项logistic回归(多分类广义线性模型)的核心响应分布就是多项分布,用于处理响应变量为多分类的回归问题,广泛应用于机器学习、计量经济学、生物统计。
  4. 自然语言处理:词袋模型中,文档的词频分布服从多项分布,是文本分类、主题模型(LDA)、语言模型的核心概率基础。
  5. 质量控制与抽样检验:多等级产品的抽样检验中,不同质量等级的产品数量服从多项分布,用于多分类质量特性的验收方案设计。

七、多项分布核心信息归纳总结表

项目 核心内容 备注与说明
分布全称 多项分布 二项分布在多分类场景的多元推广,离散型多元分布
分布记号 \(X \sim MN(n, \pi)\) \(n\)为试验总次数,\(\pi=(\pi_1,\dots,\pi_k)^T\)\(k\)维概率向量,满足\(\sum \pi_i=1\)
支撑集 非负整数向量\((j_1,\dots,j_k)\),满足\(\sum_{i=1}^k j_i =n\) 总次数固定,各分量为对应类别发生次数
联合概率质量函数 \(P(X_1=j_1,\dots,X_k=j_k) = \frac{n!}{j_1!j_2!\dots j_k!} \prod_{i=1}^k \pi_i^{j_i}, \ \sum j_i =n\) 基于多项式定理保证规范性
核心分解 \(X = \sum_{m=1}^n X^m\)\(X^m\)独立同分布于多点分布\(MN(1,\pi)\) 所有性质的推导基础,对应二项分布的两点分布分解
边缘分布 单个分量\(X_i \sim b(n,\pi_i)\)(二项分布) 多分类合并为二分类后服从二项分布
期望向量 \(E(X) = n\pi\) 各分量期望为\(n\pi_i\),等于试验次数乘以对应类别概率
协方差矩阵 \(\text{Var}(X) = n\left[ \text{diag}(\pi) - \pi\pi^T \right]\) 对角元为二项分布方差\(n\pi_i(1-\pi_i)\),非对角元为\(-n\pi_i\pi_j\),半正定奇异矩阵,秩为\(k-1\)
特征函数 \(\varphi(t) = \left( \sum_{i=1}^k \pi_i e^{i t_i} \right)^n\) 由独立多点分布的特征函数乘积得到
可加性 \(X_1 \sim MN(n_1,\pi), X_2 \sim MN(n_2,\pi)\)且独立,则\(X_1+X_2 \sim MN(n_1+n_2,\pi)\) 要求概率向量\(\pi\)相同,可推广到多个独立分布之和
与其他分布的关系 1. \(k=2\)时退化为二项分布\(b(n,\pi_1)\)
2. \(n=1\)时退化为多点分布\(MN(1,\pi)\)
3. 独立泊松变量在和固定的条件下服从多项分布
连接了二项分布、多点分布、泊松分布
典型应用场景 多分类试验计数建模、列联表分析、多项logistic回归、自然语言处理词袋模型、多等级质量抽样检验 是多分类离散数据统计建模的核心基础分布

常见离散型概率分布核心信息汇总表

分布全称 常用记号 核心参数 支撑集(取值范围) 概率质量函数(PMF) 数学期望 方差 核心特征与备注
单点分布(退化分布) \(X \sim \delta(a)\)
\(X \sim \text{Deg}(a)\)
\(a \in \mathbb{R}\)(确定性常数) \(\{a\}\) \(p(x)=\begin{cases}1, & x=a \\ 0, & x \neq a\end{cases}\) \(a\) \(0\) 随机性完全消失,退化为确定性常量;随机变量方差为0的充要条件;与任意随机变量相互独立;所有离散分布的退化极限
离散均匀分布 \(X \sim U(m)\)
\(X \sim \text{DU}(1,m)\)
\(m\)(正整数,总取值个数) \(\{1,2,\dots,m\}\) \(p(i)=\frac{1}{m}, \ i=1,2,\dots,m\) \(\frac{m+1}{2}\) \(\frac{m^2-1}{12}\) 有限等可能取值的古典概型标准模型;分布关于\(\frac{m+1}{2}\)完全对称;\(m=1\)时退化为单点分布
两点分布(伯努利分布) \(X \sim b(1,\theta)\)
\(X \sim \text{Bern}(\theta)\)
\(\theta \in [0,1]\)(单次试验成功概率) \(\{0,1\}\) \(p(x)=\theta^x(1-\theta)^{1-x}, \ x=0,1\) \(\theta\) \(\theta(1-\theta)\) 单次二分类试验的标准模型;事件示性函数的分布;所有二项类分布的基础单元;\(\theta=0\)\(\theta=1\)时退化为单点分布
二项分布 \(X \sim b(n,\theta)\)
\(X \sim \text{Bin}(n,\theta)\)
\(n\)(正整数,独立试验次数)
\(\theta \in [0,1]\)(单次成功概率)
\(\{0,1,2,\dots,n\}\) \(p(i)=\binom{n}{i}\theta^i(1-\theta)^{n-i}, \ i=0,1,\dots,n\) \(n\theta\) \(n\theta(1-\theta)\) n重独立伯努利试验的成功次数;\(n=1\)时退化为两点分布;独立同\(\theta\)的分布具有可加性;\(n\)足够大时渐近正态分布\(N(n\theta,n\theta(1-\theta))\)
超几何分布 \(X \sim HG(n,N,M)\)
\(X \sim \text{Hyp}(n,N,M)\)
\(N\)(总体容量)
\(M\)(总体目标个体总数)
\(n\)(不放回抽样的样本量)
\(\{\max(0,n+M-N), \dots, \min(n,M)\}\) \(p(i)=\frac{\binom{M}{i}\binom{N-M}{n-i}}{\binom{N}{n}}\) \(n \cdot \frac{M}{N}\) \(n \cdot \frac{M}{N} \cdot \frac{N-M}{N} \cdot \frac{N-n}{N-1}\) 有限总体不放回抽样的目标个体计数模型;方差含有限总体校正因子\(\frac{N-n}{N-1}\),恒小于对应二项分布的方差;抽样比例\(\frac{n}{N} \leq 0.05\)时可近似为二项分布\(b(n,\frac{M}{N})\)
几何分布(首次成功试验次数型) \(X \sim G(\theta)\)
\(X \sim \text{Geom}(\theta)\)
\(\theta \in (0,1)\)(单次成功概率) \(\{1,2,3,\dots\}\) \(p(i)=(1-\theta)^{i-1}\theta, \ i \geq 1\) \(\frac{1}{\theta}\) \(\frac{1-\theta}{\theta^2}\) 首次成功所需的试验次数;离散型分布中唯一具有无记忆性的分布;\(r=1\)时的帕斯卡分布
帕斯卡分布(负二项分布-试验次数型) \(X \sim PA(r,\theta)\)
\(X \sim \text{NB}(r,\theta)\)
\(r\)(正整数,目标成功次数)
\(\theta \in (0,1)\)(单次成功概率)
\(\{r, r+1, r+2, \dots\}\) \(p(i)=\binom{i-1}{r-1}\theta^r(1-\theta)^{i-r}, \ i \geq r\) \(\frac{r}{\theta}\) \(\frac{r(1-\theta)}{\theta^2}\) \(r\)次成功所需的总试验次数;\(r\)个独立同分布几何分布的和;独立同\(\theta\)的分布具有可加性;\(r=1\)时退化为几何分布
负二项分布(失败次数型) \(X \sim NB(r,\theta)\)
\(X \sim \text{NegBin}(r,\theta)\)
\(r\)(正实数,目标成功次数,可推广)
\(\theta \in (0,1)\)(单次成功概率)
\(\{0,1,2,\dots\}\) \(p(i)=\binom{r+i-1}{i}\theta^r(1-\theta)^i, \ i \geq 0\) \(\frac{r(1-\theta)}{\theta}\) \(\frac{r(1-\theta)}{\theta^2}\) \(r\)次成功前的失败总次数;方差恒大于期望,是过离散计数数据的核心拟合模型;\(r=1\)时退化为几何分布的失败次数形式
泊松分布 \(X \sim P(\lambda)\)
\(X \sim \text{Poisson}(\lambda)\)
\(\lambda > 0\)(强度参数,事件平均发生次数) \(\{0,1,2,\dots\}\) \(p(i)=\frac{e^{-\lambda}\lambda^i}{i!}, \ i \geq 0\) \(\lambda\) \(\lambda\) 单位时间/空间内稀有事件的发生次数模型;二项分布的极限分布(\(n \to \infty, n\theta \to \lambda\));独立分布具有可加性;\(\lambda \geq 20\)时可近似正态分布\(N(\lambda,\lambda)\)
多点分布(分类分布) \(X \sim MN(1,\pi)\)
\(X \sim \text{Cat}(\pi)\)
\(k\)维概率向量\(\pi=(\pi_1,\dots,\pi_k)^T\),满足\(\sum_{i=1}^k \pi_i=1\) \(k\)维0-1向量,满足\(\sum_{i=1}^k x_i=1\) \(p(x_1,\dots,x_k)=\prod_{i=1}^k \pi_i^{x_i}\)(仅单个分量为1时非零) 期望向量:\(\pi\) 协方差矩阵:\(\text{diag}(\pi) - \pi\pi^T\) 单次多分类试验的标准模型;两点分布在多分类场景的推广;\(k=2\)时退化为两点分布;多项分布的基础单元
多项分布 \(X \sim MN(n,\pi)\)
\(X \sim \text{Mult}(n,\pi)\)
\(n\)(正整数,独立试验总次数)
\(k\)维概率向量\(\pi=(\pi_1,\dots,\pi_k)^T\),满足\(\sum_{i=1}^k \pi_i=1\)
非负整数向量\((x_1,\dots,x_k)\),满足\(\sum_{i=1}^k x_i =n\) \(p(x_1,\dots,x_k)=\frac{n!}{\prod_{i=1}^k x_i!} \prod_{i=1}^k \pi_i^{x_i}\) 期望向量:\(n\pi\) 协方差矩阵:\(n\left[ \text{diag}(\pi) - \pi\pi^T \right]\) n次独立多分类试验的类别计数模型;二项分布在多分类场景的推广;\(n=1\)时退化为多点分布;\(k=2\)时退化为二项分布;独立同\(\pi\)的分布具有可加性

posted on 2026-02-20 12:10  Indian_Mysore  阅读(1)  评论(0)    收藏  举报

导航