昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

2.1.2因子分解定理

因子分解定理系统讲解与完整推导

各位同学,今天我们系统讲解数理统计中判断、求解充分统计量的核心工具——因子分解定理(Factorization Theorem)。我们将从底层定义出发,完整拆解每一步推导逻辑,把定理的来龙去脉、核心内涵全部讲透。


一、前置核心概念:充分统计量的定义与本质

因子分解定理的核心是刻画充分统计量,我们必须先把这个基础概念讲清楚。

1. 充分统计量的严格定义

设总体分布族为\(\{f(x;\theta), \theta \in \Theta\}\),其中\(\theta\)是待估未知参数,\(\Theta\)为参数空间;\(X=(X_1,X_2,\dots,X_n)^T\)是来自该总体的\(n\)维简单随机样本。
若统计量\(T=T(X)\)满足:在给定\(T(X)=t\)的条件下,样本\(X\)的条件分布\(f(x|t;\theta)\)与未知参数\(\theta\)无关,则称\(T=T(X)\)\(\theta\)充分统计量

2. 充分统计量的直观本质

充分统计量的核心是无信息损失的信息压缩
样本\(X\)包含了关于参数\(\theta\)的全部信息,而充分统计量\(T(X)\)\(n\)维样本的信息压缩到更低维度,且没有丢失任何关于\(\theta\)的信息。换句话说:只要知道了\(T(X)\)的取值,哪怕丢掉原始样本,也不会损失任何关于\(\theta\)的信息,这就是“充分”的含义。

例如正态总体\(N(\mu,1)\)中,样本均值\(\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i\)就是\(\mu\)的充分统计量:知道\(\bar{X}\)后,原始样本的具体取值不再提供关于\(\mu\)的额外信息。


二、数学预备工具:多元随机变量的一一变换与雅可比行列式

定理证明的核心工具是多元随机变量一一变换的密度变换公式,这里先把这个工具的逻辑讲透,避免后续证明出现断层。

1. 变换的设定

\(n\)维随机变量\(X=(X_1,\dots,X_n)^T\)的概率密度为\(f_X(x)\),存在一一对应的光滑变换:

\[Z = Z(X) = (Z_1(X), Z_2(X), \dots, Z_n(X))^T \]

其逆变换为\(X = X(Z)\),即\(x\)可以唯一表示为\(z\)的函数。

2. 雅可比行列式的定义

逆变换的偏导数构成的行列式称为雅可比行列式:

\[J = \frac{\partial X}{\partial Z} = \begin{vmatrix} \frac{\partial x_1}{\partial z_1} & \frac{\partial x_1}{\partial z_2} & \dots & \frac{\partial x_1}{\partial z_n} \\ \frac{\partial x_2}{\partial z_1} & \frac{\partial x_2}{\partial z_2} & \dots & \frac{\partial x_2}{\partial z_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial x_n}{\partial z_1} & \frac{\partial x_n}{\partial z_2} & \dots & \frac{\partial x_n}{\partial z_n} \end{vmatrix}\]

我们要求该行列式处处不为0,保证变换是光滑可逆的。

3. 密度变换核心公式

\(n\)维随机变量\(Z\)的概率密度为:

\[f_Z(z) = f_X\left(X(z)\right) \cdot \left| J \right| = f_X\left(X(z)\right) \cdot \left| \frac{\partial X}{\partial Z} \right| \]

反过来,\(X\)的密度也可以用\(Z\)的密度表示:

\[f_X(x) = f_Z\left(Z(x)\right) \cdot \left| \frac{\partial Z}{\partial X} \right| \]

其中\(\left| \frac{\partial Z}{\partial X} \right| = \left| \frac{\partial X}{\partial Z} \right|^{-1}\),是线性代数中逆矩阵行列式的基本性质。

4. 证明中的变换设计

我们的核心统计量\(T=T(X)\)\(k\)维的(\(k<n\)),无法直接和\(n\)维样本\(X\)做一一变换。因此我们引入辅助统计量\(W=W(X)\)\(n-k\)维),使得\(Z=(T,W)\)\(n\)维统计量,且\(X \leftrightarrow Z=(T,W)\)是一一对应的光滑可逆变换。

举个直观例子:若\(T=\bar{X}\),可取\(W=(X_2,X_3,\dots,X_n)\),此时\(Z=(\bar{X},X_2,\dots,X_n)\),可唯一反解出\(X_1 = n\bar{X} - X_2 - \dots - X_n\),显然是一一变换,雅可比行列式不为0。

这里强调:辅助统计量\(W\)的选取不唯一,且不会影响最终结论,这是证明的巧妙之处。


三、核心引理(引理2.1.2)的完整讲解与证明

这个引理是连接“充分统计量定义”和“因子分解定理”的核心桥梁,我们分步完成证明。

1. 引理内容

在上述一一变换的条件下,\(T(X)\)\(\theta\)的充分统计量的充要条件是:条件密度\(p(w|t;\theta)\)与未知参数\(\theta\)无关。

2. 引理的直观解读

\(Z=(T,W)\)\(X\)一一对应,因此“给定\(T\)\(X\)的分布与\(\theta\)无关”,完全等价于“给定\(T\)\(Z\)的分布与\(\theta\)无关”。而\(Z=(T,W)\),给定\(T=t\)时,\(Z\)的分布就是\(W\)的条件分布,因此等价于\(W|T\)的分布与\(\theta\)无关。

3. 引理的分步严格证明

我们的证明目标:\(f(x|t;\theta)\)\(\theta\)无关 \(\iff\) \(p(w|t;\theta)\)\(\theta\)无关。

步骤1:写出条件密度的定义式

根据条件概率密度的定义,给定\(T=t\)时,样本\(X\)的条件密度为:

\[f(x|t;\theta) = \frac{f(x;\theta) \cdot I\{x: T(x)=t\}}{f_T(t;\theta)} \tag{2.1.4} \]

符号说明:

  • \(I\{x: T(x)=t\}\)指示函数:当\(T(x)=t\)时取值为1,否则为0,保证条件密度仅在\(T(x)=t\)时有意义;
  • \(f_T(t;\theta)\)是统计量\(T\)的边缘概率密度。

步骤2:代入样本密度的变换公式

根据密度变换公式,样本\(X\)的密度可表示为\(Z=(T,W)\)的联合密度形式:

\[f(x;\theta) = p\left(T(x), W(x); \theta\right) \cdot \left| \frac{\partial (t,w)}{\partial x} \right| \tag{2.1.5} \]

将(2.1.5)代入(2.1.4)的分子,得到:

\[f(x|t;\theta) = \frac{ p\left(T(x), W(x); \theta\right) \cdot I\{x: T(x)=t\} \cdot \left| \frac{\partial (t,w)}{\partial x} \right| }{f_T(T(x);\theta)} \]

步骤3:拆分联合密度为边缘×条件

根据条件密度定义,联合密度可拆分为:

\[p(t,w;\theta) = p_T(t;\theta) \cdot p(w|t;\theta) \]

其中\(p_T(t;\theta)\)就是\(T\)的边缘密度\(f_T(t;\theta)\)。将其代入上式,分子分母的\(p_T(T(x);\theta)\)可直接约去:

\[\begin{align*} f(x|t;\theta) &= \frac{ p_T(T(x);\theta) \cdot p\left(W(x)|T(x); \theta\right) \cdot I\{x: T(x)=t\} \cdot \left| \frac{\partial (t,w)}{\partial x} \right| }{f_T(T(x);\theta)} \\ &= p\left(W(x)|T(x); \theta\right) \cdot I\{x: T(x)=t\} \cdot \left| \frac{\partial (t,w)}{\partial x} \right| \end{align*} \]

步骤4:分析充要条件

观察最终式子的各项与\(\theta\)的关系:

  1. 指示函数\(I\{x: T(x)=t\}\):仅和样本\(x\)、统计量\(T\)有关,与\(\theta\)无关;
  2. 雅可比行列式的绝对值\(\left| \frac{\partial (t,w)}{\partial x} \right|\):仅和变换的函数形式有关,与\(\theta\)无关;
  3. 仅剩余条件密度\(p\left(W(x)|T(x); \theta\right)\)(即\(p(w|t;\theta)\))与\(\theta\)可能相关。

因此,\(f(x|t;\theta)\)\(\theta\)无关,当且仅当\(p(w|t;\theta)\)\(\theta\)无关,引理得证。


四、因子分解定理(定理2.1.1)的完整讲解与证明

1. 定理内容

\(T=T(X)\)\(\theta\)的充分统计量的充要条件是:样本\(X\)的联合密度\(f(x;\theta)\)可分解为如下形式:

\[f(x;\theta) = h(x) \cdot g\left(T(x); \theta\right) \tag{2.1.7} \]

其中:

  • \(h(x) \geq 0\):仅关于样本\(x\)的非负可测函数,与参数\(\theta\)完全无关
  • \(g(t;\theta) \geq 0\):仅通过\(T(x)\)依赖于样本\(x\)的非负可测函数,仅和参数\(\theta\)、统计量\(T\)的取值有关

特别说明:若\(T\)是充分统计量,\(g(t;\theta)\)可取为\(T\)的概率密度函数;但分解式中的\(g(t;\theta)\)不一定是\(T\)的密度,仅需满足形式要求。

2. 定理的直观解读

分解式的核心意义非常清晰:
样本密度被拆分为两部分:

  1. \(h(x)\):仅和样本有关,与\(\theta\)无关,不包含任何关于\(\theta\)的信息;
  2. \(g(T(x);\theta)\):与\(\theta\)有关,但仅通过\(T(x)\)依赖样本,所有关于\(\theta\)的信息都被包含在\(T(x)\)中。

这完美对应了充分统计量的本质:\(T(x)\)包含了样本中所有关于\(\theta\)的信息,因此是充分的。

3. 定理的完整证明

我们分必要性充分性两部分完成证明。

(1)必要性证明(\(T\)是充分统计量\(\implies\) 密度可分解为(2.1.7)形式)

已知\(T=T(X)\)\(\theta\)的充分统计量,证明分解式成立。

步骤1:写出样本密度的变换式
取辅助统计量\(W\)使得\(Z=(T,W)\)\(X\)一一对应,根据密度变换公式:

\[f(x;\theta) = p\left(T(x), W(x); \theta\right) \cdot \left| \frac{\partial (t,w)}{\partial x} \right| \]

步骤2:拆分联合密度
根据条件密度定义,\(p(t,w;\theta) = p_T(t;\theta) \cdot p(w|t;\theta)\),代入上式:

\[f(x;\theta) = p_T\left(T(x); \theta\right) \cdot p\left(W(x)|T(x); \theta\right) \cdot \left| \frac{\partial (t,w)}{\partial x} \right| \]

步骤3:利用充分性条件定义函数
因为\(T\)是充分统计量,由引理2.1.2,\(p(w|t;\theta)\)\(\theta\)完全无关。我们定义两个函数:

  • \(g(T(x);\theta) = p_T\left(T(x); \theta\right)\)\(T\)的边缘密度,仅和\(T(x)\)\(\theta\)有关,符合要求;
  • \(h(x) = p\left(W(x)|T(x); \theta\right) \cdot \left| \frac{\partial (t,w)}{\partial x} \right|\):两项均与\(\theta\)无关,仅和样本\(x\)有关,符合要求。

步骤4:得到分解式
代入后直接得到:

\[f(x;\theta) = h(x) \cdot g\left(T(x); \theta\right) \]

必要性得证。

(2)充分性证明(密度可分解为(2.1.7)形式\(\implies\) \(T\)是充分统计量)

已知样本密度满足\(f(x;\theta) = h(x) \cdot g\left(T(x); \theta\right)\),证明\(T\)是充分统计量。

根据引理2.1.2,只需证明\(p(w|t;\theta)\)\(\theta\)无关,即可推出\(T\)是充分统计量。

步骤1:写出\(Z=(T,W)\)的联合密度
取辅助统计量\(W\)使得\(Z=(T,W)\)\(X\)一一对应,根据密度变换公式,\(Z\)的联合密度为:

\[p(t,w;\theta) = f\left(X(t,w); \theta\right) \cdot \left| \frac{\partial x}{\partial (t,w)} \right| \]

记雅可比行列式的绝对值为\(|J| = \left| \frac{\partial x}{\partial (t,w)} \right|\),简化书写。

步骤2:代入分解式
\(f(x;\theta) = h(x)g(T(x);\theta)\)代入,注意\(x=X(t,w)\)\(T(x)=t\),因此:

\[p(t,w;\theta) = h\left(X(t,w)\right) \cdot g(t; \theta) \cdot |J| \]

步骤3:计算条件密度\(p(w|t;\theta)\)
根据条件密度定义:

\[p(w|t;\theta) = \frac{p(t,w;\theta)}{\int_{-\infty}^{+\infty} p(t,w;\theta) dw} \]

\(p(t,w;\theta)\)代入分子分母:

\[p(w|t;\theta) = \frac{ h\left(X(t,w)\right) \cdot g(t; \theta) \cdot |J| }{ \int_{-\infty}^{+\infty} h\left(X(t,w)\right) \cdot g(t; \theta) \cdot |J| dw } \]

步骤4:约去与\(\theta\)相关的项
\(g(t;\theta)\)仅和\(t\)\(\theta\)有关,与积分变量\(w\)无关,可从分母积分中提出,与分子的\(g(t;\theta)\)直接约去:

\[p(w|t;\theta) = \frac{ h\left(X(t,w)\right) \cdot |J| }{ \int_{-\infty}^{+\infty} h\left(X(t,w)\right) \cdot |J| dw } \]

观察最终式子:分子、分母均与参数\(\theta\)完全无关,因此\(p(w|t;\theta)\)\(\theta\)无关。

步骤5:由引理推出充分性
根据引理2.1.2,\(p(w|t;\theta)\)\(\theta\)无关等价于\(T(X)\)\(\theta\)的充分统计量,充分性得证。

至此,因子分解定理的充要条件全部证明完毕。


五、推论与关键注意事项

1. 推论1:样本\(X\)本身是\(\theta\)的充分统计量

用因子分解定理可直接验证:取\(T(X)=X\)\(h(x)=1\)\(g(T(x);\theta)=f(x;\theta)\),完全符合分解式要求。直观上,原始样本天然包含关于\(\theta\)的全部信息,必然是充分的。

2. 推论2:若\(T(X)\)是充分统计量,且\(T(X)=\varphi(S(X))\)\(\varphi\)为可测函数),则\(S(X)\)也是充分统计量

证明:\(T\)充分则\(f(x;\theta)=h(x)g(T(x);\theta)=h(x)g(\varphi(S(x));\theta)\),令\(g'(s;\theta)=g(\varphi(s);\theta)\),则\(f(x;\theta)=h(x)g'(S(x);\theta)\),符合分解式要求,因此\(S(X)\)是充分统计量。

3. 关键误区澄清

充分统计量的可测函数,不一定是充分统计量
推论仅说明“充分统计量的原函数是充分的”,而非“函数是充分的”。例如样本\(X\)是充分统计量,取可测函数\(\varphi(X)=1\)(常数统计量),它不包含任何关于\(\theta\)的信息,显然不是充分统计量。

仅当可测函数是一一对应的可逆变换时,充分统计量的函数才保持充分性(一一对应保证无信息损失)。


六、知识点核心归纳总结

分类 核心内容 关键要点与说明
核心定义 充分统计量 给定\(T=t\)时,样本\(X\)的条件分布与\(\theta\)无关;本质是无信息损失的样本信息压缩
数学工具 多元随机变量一一变换的密度公式 $f_X(x) = f_Z(Z(x)) \cdot
核心引理 引理2.1.2 \(T\)为充分统计量\(\iff\) 辅助统计量\(W\)的条件密度$p(w
核心定理 因子分解定理 样本密度可分解为\(f(x;\theta)=h(x)g(T(x);\theta)\),其中\(h(x)\)\(\theta\)无关,\(g\)仅通过\(T(x)\)依赖样本
定理必要性 \(T\)充分,则密度可分解;\(g\)可取\(T\)的边缘密度,\(h\)由条件密度和雅可比行列式构成
定理充分性 若密度可分解,则\(T\)充分;通过条件密度约去\(g(t;\theta)\),证明$p(w
核心推论 推论1 样本\(X\)本身一定是充分统计量,天然包含全部参数信息
推论2 \(T\)是充分统计量,且\(T=\varphi(S)\)\(\varphi\)可测),则\(S\)也是充分统计量;信息更完整的统计量保持充分性
关键注意事项 误区澄清 1. 辅助统计量\(W\)不唯一,不影响定理结论;
2. 分解式中\(g(t;\theta)\)不一定是\(T\)的密度,仅需满足形式要求;
3. 充分统计量的可测函数不一定是充分统计量,仅一一可逆变换时保持充分性
核心价值 定理意义 将“判断充分性”的概率问题,转化为“函数分解”的代数问题,无需计算复杂条件分布,是参数估计、假设检验的核心基础工具

补充说明

因子分解定理对离散型随机变量同样成立,只需将概率密度函数替换为概率质量函数,积分替换为求和,整个证明逻辑完全一致。该定理是后续学习一致最小方差无偏估计、完备统计量等内容的核心基础。


指数族分布的充分统计量定理 系统讲解与推导

本次内容是因子分解定理在指数族分布上的直接应用,我们将从指数族定义出发,完成定理的完整推导、案例拆解与应用拓展,帮你彻底掌握常用分布充分统计量的通用求解方法。


一、前置核心铺垫

1. 指数族分布的标准形式

我们首先明确图片中指数族分布的标准表达式,以及每个部分的含义:

\[f(x,\theta) = h(x) e^{Q^T(\theta) T(x) - b(\theta)} \]

其中:

  • \(\theta\):待估的未知参数(可以是一维或k维向量);
  • \(h(x) \geq 0\):仅与样本\(x\)有关的非负可测函数,与参数\(\theta\)完全无关
  • \(Q(\theta) = (Q_1(\theta), Q_2(\theta), \dots, Q_k(\theta))^T\):k维参数向量函数,仅与\(\theta\)有关,与样本无关
  • \(T(x) = (T_1(x), T_2(x), \dots, T_k(x))^T\):k维统计量,仅与样本\(x\)有关,与参数无关
  • \(b(\theta)\):仅与\(\theta\)有关的归一化函数(累积量生成函数),保证密度函数的积分/求和为1。

指数族分布是数理统计中最核心的分布族,绝大多数常用分布(二项分布、泊松分布、正态分布、Gamma分布、Beta分布、指数分布等)都属于指数族

2. 核心工具回顾:因子分解定理

统计量\(T=T(X)\)\(\theta\)的充分统计量,当且仅当样本联合密度可分解为:

\[f(x;\theta) = h(x) \cdot g(T(x);\theta) \]

其中\(h(x)\)\(\theta\)无关,\(g(t;\theta)\)仅通过\(T(x)\)依赖样本。本次定理的所有推导,都基于这个核心定理。


二、定理2.1.2 完整讲解与严格推导

(1)单变量指数族的充分统计量

定理内容

若总体\(X\)服从指数族分布:

\[X \sim f(x,\theta) = h(x) e^{Q^T(\theta) T(x) - b(\theta)} \]

则统计量\(T(X) = (T_1(X), \dots, T_k(X))^T\)\(\theta\)的充分统计量。

严格证明

我们直接套用因子分解定理完成证明:

  1. 将指数族密度做形式拆分:

    \[f(x;\theta) = h(x) \cdot \underbrace{e^{Q^T(\theta) T(x) - b(\theta)}}_{g(T(x);\theta)} \]

  2. 验证因子分解的两个条件:
    • 第一部分\(h(x)\):仅与样本\(x\)有关,与参数\(\theta\)完全无关,符合因子分解中\(h(x)\)的要求;
    • 第二部分\(g(T(x);\theta) = e^{Q^T(\theta) T(x) - b(\theta)}\):仅通过\(T(x)\)依赖样本\(x\),且仅与参数\(\theta\)、统计量\(T\)的取值有关,完全符合因子分解中\(g(t;\theta)\)的要求。

根据因子分解定理,\(T(X)\)\(\theta\)的充分统计量,得证。


(2)独立同分布(i.i.d.)样本的指数族充分统计量

定理内容

\(X_1,X_2,\dots,X_n\)为来自指数族总体的i.i.d.样本,单个样本的分布为:

\[X_1 \sim h(x_1) e^{Q^T(\theta) T(x_1) - b(\theta)} \]

则样本\(X=(X_1,\dots,X_n)^T\)的联合分布仍为指数族:

\[f(x_1,\dots,x_n;\theta) = \left[ \prod_{i=1}^n h(x_i) \right] e^{ Q^T(\theta) \sum_{i=1}^n T(x_i) - n b(\theta) } \]

\(\theta\)的充分统计量为:

\[T = T(X) = \sum_{i=1}^n T(X_i) = \left( \sum_{i=1}^n T_1(X_i), \sum_{i=1}^n T_2(X_i), \dots, \sum_{i=1}^n T_k(X_i) \right)^T \]

分步推导与证明

步骤1:推导样本的联合密度

i.i.d.样本的联合密度等于单个样本密度的乘积,因此:

\[\begin{align*} f(x_1,\dots,x_n;\theta) &= \prod_{i=1}^n f(x_i;\theta) \\ &= \prod_{i=1}^n \left[ h(x_i) e^{Q^T(\theta) T(x_i) - b(\theta)} \right] \end{align*} \]

步骤2:拆分乘积项与指数项

根据指数运算规则,乘积的指数等于指数的和,因此拆分得到:

\[f(x_1,\dots,x_n;\theta) = \left( \prod_{i=1}^n h(x_i) \right) \cdot e^{ \sum_{i=1}^n \left[ Q^T(\theta) T(x_i) - b(\theta) \right] } \]

步骤3:化简指数部分

\(Q^T(\theta)\)与求和变量\(i\)无关,可从求和式中提出;\(n\)\(-b(\theta)\)求和的结果为\(-nb(\theta)\),因此指数部分化简为:

\[\sum_{i=1}^n \left[ Q^T(\theta) T(x_i) - b(\theta) \right] = Q^T(\theta) \sum_{i=1}^n T(x_i) - n b(\theta) \]

步骤4:得到联合密度的指数族形式

将化简后的指数项代入,得到最终的联合密度:

\[f(x_1,\dots,x_n;\theta) = \left[ \prod_{i=1}^n h(x_i) \right] e^{ Q^T(\theta) \sum_{i=1}^n T(x_i) - n b(\theta) } \]

这依然符合指数族的标准形式。

步骤5:证明充分性(套用因子分解定理)

将联合密度做因子分解拆分:

\[f(x_1,\dots,x_n;\theta) = \underbrace{\prod_{i=1}^n h(x_i)}_{h(x)} \cdot \underbrace{e^{ Q^T(\theta) \cdot T(X) - n b(\theta) }}_{g(T(X);\theta)} \]

其中:

  • \(h(x) = \prod_{i=1}^n h(x_i)\):仅与样本有关,与\(\theta\)无关;
  • \(g(T(X);\theta)\):仅通过\(T(X) = \sum_{i=1}^n T(X_i)\)依赖样本,与\(\theta\)有关。

完全满足因子分解定理的条件,因此\(T(X) = \sum_{i=1}^n T(X_i)\)\(\theta\)的充分统计量,得证。


三、案例拆解:Gamma分布的充分统计量推导

我们以图片中的Gamma分布为例,完整演示如何套用定理求解充分统计量。

1. Gamma分布的密度与指数族转化

\(X_1 \sim \Gamma(\lambda, \nu)\)(Gamma分布),其概率密度为:

\[f(x_1;\lambda,\nu) = \frac{\lambda^\nu}{\Gamma(\nu)} x_1^{\nu-1} e^{-\lambda x_1}, \quad x_1>0 \]

将其转化为指数族的标准形式,对密度取对数后再指数化:

\[f(x_1;\lambda,\nu) = \exp\left[ -\lambda x_1 + (\nu-1)\ln x_1 + \nu \ln \lambda - \ln \Gamma(\nu) \right] \]

2. 对应指数族的各个部分

对比标准形式\(f(x,\theta) = h(x) e^{Q^T(\theta) T(x) - b(\theta)}\)

  • 未知参数\(\theta = (\lambda, \nu)\)
  • \(h(x_1) = 1\)(仅与样本有关,与参数无关);
  • 参数函数\(Q^T(\theta) = (-\lambda, \nu-1)\)
  • 统计量\(T(x_1) = (x_1, \ln x_1)^T\)
  • 归一化项\(-b(\theta) = \nu \ln \lambda - \ln \Gamma(\nu)\),即\(b(\theta) = \ln \Gamma(\nu) - \nu \ln \lambda\)

3. 求解i.i.d.样本的充分统计量

根据定理2.1.2,i.i.d.样本的充分统计量为单个样本统计量的求和:

\[T(X) = \sum_{i=1}^n T(X_i) = \left( \sum_{i=1}^n X_i, \sum_{i=1}^n \ln X_i \right)^T \]

利用对数运算性质\(\sum_{i=1}^n \ln X_i = \ln \prod_{i=1}^n X_i\),可改写为:

\[T(X) = \left( \sum_{i=1}^n X_i, \ln \prod_{i=1}^n X_i \right) \]

4. 等价充分统计量

由于对数函数是一一对应的可逆可测变换,不会损失样本信息,因此充分统计量的可逆变换依然是充分统计量。对第二分量取指数,得到等价的充分统计量:

\[\tilde{T}(X) = \left( \sum_{i=1}^n X_i, \prod_{i=1}^n X_i \right) \]


四、常用分布的应用拓展

该定理适用于所有指数族分布,我们给出3个最常用分布的快速应用示例,帮你巩固方法:

1. 泊松分布\(P(\lambda)\)

  • 概率质量函数:\(f(x;\lambda) = \frac{\lambda^x e^{-\lambda}}{x!} = \exp\left( x \ln \lambda - \lambda - \ln x! \right)\)
  • 对应指数族:\(T(x)=x\)\(Q(\theta)=\ln\lambda\)
  • i.i.d.样本的充分统计量:\(T(X) = \sum_{i=1}^n X_i\)(样本和,与样本均值等价)

2. 二项分布\(B(m,p)\)

  • 概率质量函数:\(f(x;p) = \mathrm{C}_m^x p^x (1-p)^{m-x} = \exp\left( x \ln \frac{p}{1-p} + m \ln(1-p) + \ln \mathrm{C}_m^x \right)\)
  • 对应指数族:\(T(x)=x\)\(Q(\theta)=\ln \frac{p}{1-p}\)
  • i.i.d.样本的充分统计量:\(T(X) = \sum_{i=1}^n X_i\)(总成功次数)

3. 正态分布\(N(\mu, \sigma^2)\)

  • 概率密度:\(f(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right) = \exp\left( \frac{\mu x}{\sigma^2} - \frac{x^2}{2\sigma^2} - \frac{\mu^2}{2\sigma^2} - \frac{1}{2}\ln(2\pi\sigma^2) \right)\)
  • 对应指数族:\(T(x)=(x, x^2)^T\)\(Q^T(\theta)=(\frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2})\)
  • i.i.d.样本的充分统计量:\(T(X) = \left( \sum_{i=1}^n X_i, \sum_{i=1}^n X_i^2 \right)\)(与样本均值、样本方差等价)

五、核心内容归纳总结

模块 核心内容 关键要点
基础定义 指数族标准形式 \(f(x,\theta) = h(x) e^{Q^T(\theta) T(x) - b(\theta)}\),核心是将密度拆分为“样本项”和“参数-统计量耦合项”
定理核心1 单变量指数族充分统计量 指数族中\(T(x)\)是充分统计量,本质是因子分解定理的直接应用
定理核心2 i.i.d.样本的充分统计量 样本联合分布仍为指数族,充分统计量为单个样本统计量的求和\(\sum_{i=1}^n T(X_i)\)
证明核心 推导逻辑 1. 独立样本联合密度为边际密度的乘积;
2. 拆分乘积与指数项,化简为指数族标准形式;
3. 套用因子分解定理验证充分性
核心价值 应用意义 给出了绝大多数常用分布充分统计量的通用求解方法,无需每次单独推导条件分布或套用因子分解定理,是参数估计、假设检验的核心基础工具
关键性质 等价充分统计量 充分统计量的一一可逆可测变换,依然是充分统计量(如求和与均值、对数和与乘积)

充分统计量经典例题系统讲解与推导

所有例题的核心求解工具是因子分解定理
设样本\(X=(X_1,\dots,X_n)^T\)的联合密度(概率质量)函数为\(f(x;\theta)\),若\(f(x;\theta)\)可分解为

\[f(x;\theta) = h(x) \cdot g(T(x);\theta) \]

其中\(h(x)\)是与未知参数\(\theta\)完全无关的非负函数,\(g(t;\theta)\)仅通过统计量\(T(x)\)依赖样本,则\(T(x)\)\(\theta\)的充分统计量。

求解通用步骤:

  1. 写出i.i.d.样本的联合密度/概率质量函数;
  2. 化简整理,拆分出与\(\theta\)无关的\(h(x)\),以及仅含\(T(x)\)\(\theta\)\(g(T(x);\theta)\)
  3. 确定充分统计量\(T(x)\),并给出等价形式(一一可逆变换不改变充分性)。

一、离散型分布例题

例2.1.3 伯努利分布与泊松分布的充分统计量

(1)伯努利分布\(X_1 \sim b(1,\theta)\)(0-1分布)

  • 单个样本的概率质量函数:\(f(x_i;\theta) = \theta^{x_i}(1-\theta)^{1-x_i}\)\(x_i \in \{0,1\}\)
  • 样本联合分布:

\[\begin{align*} f(x;\theta) &= \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i} \\ &= \theta^{\sum_{i=1}^n x_i} (1-\theta)^{n-\sum_{i=1}^n x_i} \\ &= g\left(\sum_{i=1}^n x_i, \theta\right) \cdot 1 \end{align*} \]

  • 拆分结果:\(h(x)=1\)(与\(\theta\)无关),\(g(T;\theta)=\theta^T(1-\theta)^{n-T}\),其中\(T=\sum_{i=1}^n X_i\)
  • 结论:\(T=\sum_{i=1}^n X_i\)(样本总成功次数)是\(\theta\)的充分统计量,等价形式为样本均值\(\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i\)

(2)泊松分布\(X_1 \sim P(\lambda)\)

  • 单个样本的概率质量函数:\(f(x_i;\lambda) = \frac{\lambda^{x_i}e^{-\lambda}}{x_i!}\)\(x_i=0,1,2,\dots\)
  • 样本联合分布:

\[\begin{align*} f(x;\lambda) &= \prod_{i=1}^n \frac{\lambda^{x_i}e^{-\lambda}}{x_i!} \\ &= e^{-n\lambda} \lambda^{\sum_{i=1}^n x_i} \cdot \prod_{i=1}^n \frac{1}{x_i!} \\ &= g\left(\sum_{i=1}^n x_i, \lambda\right) \cdot h(x) \end{align*} \]

  • 拆分结果:\(h(x)=\prod_{i=1}^n \frac{1}{x_i!}\)(与\(\lambda\)无关),\(g(T;\lambda)=e^{-n\lambda}\lambda^T\),其中\(T=\sum_{i=1}^n X_i\)
  • 结论:\(T=\sum_{i=1}^n X_i\)\(\lambda\)的充分统计量,等价形式为样本均值\(\bar{X}\)

二、通用分布与连续型指数族例题

例2.1.4 任意分布的顺序统计量充分性

  • 样本联合密度:对任意i.i.d.样本,联合密度为\(f(x;\theta)=\prod_{i=1}^n f(x_i;\theta)\)
  • 化简核心:乘法满足交换律,\(\prod_{i=1}^n f(x_i;\theta) = \prod_{i=1}^n f(x_{(i)};\theta)\),其中\(x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(n)}\)是样本的顺序统计量。
  • 拆分结果:\(f(x;\theta) = g(x_{(1)},\dots,x_{(n)};\theta) \cdot 1\)\(h(x)=1\)\(\theta\)无关。
  • 结论:全体顺序统计量\((X_{(1)},X_{(2)},\dots,X_{(n)})\)是任意分布的充分统计量
    注:该统计量与原始样本信息完全等价,无信息压缩,是最基础的充分统计量。

例2.1.5 正态分布\(N(\mu,\sigma^2)\)的充分统计量

单个样本的概率密度:\(f(x_i;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(x_i-\mu)^2}{2\sigma^2} \right\}\)
样本联合密度:

\[f(x;\mu,\sigma^2) = \left( \frac{1}{\sqrt{2\pi\sigma^2}} \right)^n \exp\left\{ -\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i-\mu)^2 \right\} \]

展开平方项:\(\sum_{i=1}^n (x_i-\mu)^2 = \sum_{i=1}^n x_i^2 - 2\mu \sum_{i=1}^n x_i + n\mu^2\),代入得:

\[f(x;\mu,\sigma^2) = \left( \frac{1}{\sqrt{2\pi}\sigma} \right)^n \exp\left\{ -\frac{1}{2\sigma^2}\left( \sum_{i=1}^n x_i^2 - 2\mu \sum_{i=1}^n x_i + n\mu^2 \right) \right\} \]

(1)\(\sigma\)已知,仅\(\mu\)为未知参数

  • 拆分结果:与\(\mu\)无关的部分\(h(x) = \left( \frac{1}{\sqrt{2\pi}\sigma} \right)^n \exp\left\{ -\frac{1}{2\sigma^2}\sum_{i=1}^n x_i^2 \right\}\),与\(\mu\)有关的部分仅依赖\(T=\sum_{i=1}^n x_i\)
  • 结论:\(T=\sum_{i=1}^n X_i\)(或等价的\(\bar{X}\))是\(\mu\)的充分统计量。

(2)\(\sigma\)未知(\(\mu\)已知/未知均成立)

  • 未知参数为\(\theta=(\mu,\sigma^2)\),联合密度中与\(\theta\)有关的部分同时依赖\(\sum_{i=1}^n x_i\)\(\sum_{i=1}^n x_i^2\)
  • 结论:\(T=\left( \sum_{i=1}^n X_i, \sum_{i=1}^n X_i^2 \right)\)是充分统计量,等价形式为\((\bar{X}, S^2)\),其中\(S^2=\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2\)为样本方差。

例2.1.9 Gamma分布与Beta分布的充分统计量

(1)Gamma分布\(X_1 \sim \Gamma(\lambda,p)\)

单个样本的概率密度:\(f(x_i;\lambda,p) = \frac{\lambda^p}{\Gamma(p)} e^{-\lambda x_i} x_i^{p-1} I\{x_i \geq 0\}\)\(x_i>0\)
样本联合密度:

\[\begin{align*} f(x;\lambda,p) &= \prod_{i=1}^n \frac{\lambda^p}{\Gamma(p)} e^{-\lambda x_i} x_i^{p-1} I\{x_i \geq 0\} \\ &= \frac{\lambda^{np}}{[\Gamma(p)]^n} e^{-\lambda \sum_{i=1}^n x_i} \left( \prod_{i=1}^n x_i \right)^{p-1} I\{x_{(1)} \geq 0\} \\ &= g\left( \sum_{i=1}^n x_i, \prod_{i=1}^n x_i; \lambda,p \right) \cdot 1 \end{align*} \]

  • 结论:\(T=\left( \sum_{i=1}^n X_i, \prod_{i=1}^n X_i \right)\)\((\lambda,p)\)的充分统计量,等价形式为\(\left( \sum_{i=1}^n X_i, \sum_{i=1}^n \ln X_i \right)\)

(2)Beta分布\(X_1 \sim BE(p,q)\)

单个样本的概率密度:\(f(x_i;p,q) = \frac{1}{\beta(p,q)} x_i^{p-1} (1-x_i)^{q-1} I\{0 \leq x_i \leq 1\}\)\(0<x_i<1\)
样本联合密度:

\[\begin{align*} f(x;p,q) &= \prod_{i=1}^n \frac{1}{\beta(p,q)} x_i^{p-1} (1-x_i)^{q-1} I\{0 \leq x_i \leq 1\} \\ &= \frac{1}{[\beta(p,q)]^n} \left( \prod_{i=1}^n x_i \right)^{p-1} \left( \prod_{i=1}^n (1-x_i) \right)^{q-1} \prod_{i=1}^n I\{0 \leq x_i \leq 1\} \\ &= g\left( \prod_{i=1}^n x_i, \prod_{i=1}^n (1-x_i); p,q \right) \cdot 1 \end{align*} \]

  • 结论:\(T=\left( \prod_{i=1}^n X_i, \prod_{i=1}^n (1-X_i) \right)\)\((p,q)\)的充分统计量,等价形式为\(\left( \sum_{i=1}^n \ln X_i, \sum_{i=1}^n \ln (1-X_i) \right)\)

三、带支撑约束的分布(指示函数处理)

这类分布的核心是化简指示函数,支撑边界由顺序统计量决定,是求解的关键。

例2.1.6 均匀分布\(R(\theta_1,\theta_2)\)\(U(\theta_1,\theta_2)\)

单个样本的概率密度:\(f(x_i;\theta_1,\theta_2) = \frac{1}{\theta_2-\theta_1} I\{\theta_1 \leq x_i \leq \theta_2\}\)
样本联合密度:

\[\begin{align*} f(x;\theta_1,\theta_2) &= \prod_{i=1}^n \frac{1}{\theta_2-\theta_1} I\{\theta_1 \leq x_i \leq \theta_2\} \\ &= \frac{1}{(\theta_2-\theta_1)^n} \cdot \prod_{i=1}^n I\{\theta_1 \leq x_i \leq \theta_2\} \end{align*} \]

指示函数化简核心:所有\(x_i\)满足\(\theta_1 \leq x_i \leq \theta_2\),等价于最小值\(x_{(1)} \geq \theta_1\)且最大值\(x_{(n)} \leq \theta_2\),即:

\[\prod_{i=1}^n I\{\theta_1 \leq x_i \leq \theta_2\} = I\{\theta_1 \leq x_{(1)}\} I\{x_{(n)} \leq \theta_2\} \]

因此联合密度可写为:

\[f(x;\theta_1,\theta_2) = \frac{1}{(\theta_2-\theta_1)^n} I\{\theta_1 \leq x_{(1)}\} I\{x_{(n)} \leq \theta_2\} \cdot 1 \]

  • 全参数未知:\(T=(X_{(1)}, X_{(n)})\)(样本极小值、极大值)是\((\theta_1,\theta_2)\)的充分统计量;
  • \(\theta_1\)已知:仅\(X_{(n)}\)\(\theta_2\)的充分统计量;
  • \(\theta_2\)已知:仅\(X_{(1)}\)\(\theta_1\)的充分统计量;
  • 特殊情况\(U(0,\theta)\)\(X_{(n)}\)\(\theta\)的充分统计量。

例2.1.7 平移指数分布\(X_1 \sim \mu + E(\lambda)\)(位置-尺度指数分布)

\(X_1 - \mu \sim Exp(\lambda)\),单个样本的概率密度:\(f(x_i;\mu,\lambda) = \lambda e^{-\lambda(x_i-\mu)} I\{x_i \geq \mu\}\)

(1)\(\lambda=1\)已知,仅\(\mu\)未知

样本联合密度:

\[\begin{align*} f(x;\mu) &= \prod_{i=1}^n e^{-(x_i-\mu)} I\{x_i \geq \mu\} \\ &= e^{-\sum_{i=1}^n x_i + n\mu} \cdot I\{x_{(1)} \geq \mu\} \\ &= e^{n\mu} I\{x_{(1)} \geq \mu\} \cdot e^{-\sum_{i=1}^n x_i} \end{align*} \]

  • 拆分结果:\(h(x)=e^{-\sum x_i}\)\(\mu\)无关,\(g(T;\mu)=e^{n\mu}I\{T \geq \mu\}\)\(T=X_{(1)}\)
  • 结论:样本极小值\(X_{(1)}\)\(\mu\)的充分统计量。

(2)\(\lambda,\mu\)均未知

样本联合密度:

\[\begin{align*} f(x;\lambda,\mu) &= \prod_{i=1}^n \lambda e^{-\lambda(x_i-\mu)} I\{x_i \geq \mu\} \\ &= \lambda^n e^{-\lambda \sum_{i=1}^n x_i + n\lambda \mu} \cdot I\{x_{(1)} \geq \mu\} \\ &= \lambda^n e^{n\lambda \mu} I\{x_{(1)} \geq \mu\} \cdot e^{-\lambda \sum_{i=1}^n x_i} \end{align*} \]

  • 结论:\(T=(X_{(1)}, \sum_{i=1}^n X_i)\)\((\lambda,\mu)\)的充分统计量,常用等价形式为\((X_{(1)}, S)\),其中\(S=\sum_{i=1}^n (X_i - X_{(1)})\),二者一一对应。

例2.1.8 截尾指数分布(定数截尾)

仅观察到前\(r\)个顺序统计量\((X_{(1)},\dots,X_{(r)})=(Y_1,\dots,Y_r)\),样本联合密度为:

\[f(y_1,\dots,y_r;\lambda,\mu) = \frac{n!}{(n-r)!} \lambda^r \exp\left\{ -\lambda\left( \sum_{i=1}^r y_i + (n-r)y_r - n\mu \right) \right\} I\{y_1 \geq \mu\} \]

化简后,与参数\((\lambda,\mu)\)有关的部分依赖\(Y_1=X_{(1)}\)\(T_{n,r}=\sum_{i=1}^r X_{(i)} + (n-r)X_{(r)}\)

  • 结论:\(T=(X_{(1)}, T_{n,r})\)是充分统计量,等价形式为\((X_{(1)}, S_1)\),其中\(S_1=T_{n,r} - nX_{(1)}\)

四、多元分布例题

例2.1.10 二元正态分布\((X_1,Y_1) \sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\)

未知参数\(\theta=(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\),n个样本的联合密度展开后,平方项可拆分为:

\[\sum_{i=1}^n (x_i-\mu_1)^2 = \sum_{i=1}^n (x_i-\bar{x})^2 + n(\bar{x}-\mu_1)^2 \\ \sum_{i=1}^n (y_i-\mu_2)^2 = \sum_{i=1}^n (y_i-\bar{y})^2 + n(\bar{y}-\mu_2)^2 \\ \sum_{i=1}^n (x_i-\mu_1)(y_i-\mu_2) = \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) + n(\bar{x}-\mu_1)(\bar{y}-\mu_2) \]

代入联合密度后,与5个参数有关的部分依赖5个统计量:

  • 样本均值:\(\bar{X}, \bar{Y}\)

  • 样本离均差平方和:\(S(X)=\sum_{i=1}^n (X_i-\bar{X})^2\)\(S(Y)=\sum_{i=1}^n (Y_i-\bar{Y})^2\)

  • 样本离均差乘积和:\(S(X,Y)=\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})\)

  • 全参数未知:\(T=(\bar{X},\bar{Y}, S(X), S(Y), S(X,Y))\)是充分统计量;

  • \(\rho=0\)(独立):充分统计量为\((\bar{X},\bar{Y}, S(X), S(Y))\)

  • \(\rho,\sigma_1,\sigma_2\)已知:充分统计量为\((\bar{X},\bar{Y})\)


五、核心规律与例题汇总表

核心求解技巧

  1. 指数族分布可直接套用定理,充分统计量为单个样本统计量的求和;
  2. 带支撑的分布,核心是化简指示函数,支撑边界对应顺序统计量(极小/极大值);
  3. 多参数分布的充分统计量维度,通常与独立未知参数个数一致;
  4. 充分统计量的一一可逆可测变换,仍为充分统计量,可按需选择等价形式。

例题汇总表

分布类型 未知参数 充分统计量 等价常用形式
伯努利分布\(b(1,\theta)\) \(\theta\) \(\sum_{i=1}^n X_i\) \(\bar{X}\)
泊松分布\(P(\lambda)\) \(\lambda\) \(\sum_{i=1}^n X_i\) \(\bar{X}\)
正态分布\(N(\mu,\sigma^2)\) \(\mu\)\(\sigma\)已知) \(\sum_{i=1}^n X_i\) \(\bar{X}\)
正态分布\(N(\mu,\sigma^2)\) \((\mu,\sigma^2)\) \(\left( \sum X_i, \sum X_i^2 \right)\) \((\bar{X}, S^2)\)
均匀分布\(U(\theta_1,\theta_2)\) \((\theta_1,\theta_2)\) \((X_{(1)}, X_{(n)})\) -
平移指数分布\(\mu+E(1)\) \(\mu\) \(X_{(1)}\) -
平移指数分布\(\mu+E(\lambda)\) \((\mu,\lambda)\) \((X_{(1)}, \sum X_i)\) \((X_{(1)}, \sum (X_i-X_{(1)}))\)
Gamma分布\(\Gamma(\lambda,p)\) \((\lambda,p)\) \(\left( \sum X_i, \prod X_i \right)\) \(\left( \sum X_i, \sum \ln X_i \right)\)
Beta分布\(BE(p,q)\) \((p,q)\) \(\left( \prod X_i, \prod (1-X_i) \right)\) \(\left( \sum \ln X_i, \sum \ln (1-X_i) \right)\)
二元正态分布 \((\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\) \((\bar{X},\bar{Y}, S(X), S(Y), S(X,Y))\) -
任意分布 任意 \((X_{(1)},X_{(2)},\dots,X_{(n)})\) 原始样本\(X\)

posted on 2026-02-23 13:08  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航