2.1.2因子分解定理
因子分解定理系统讲解与完整推导
各位同学,今天我们系统讲解数理统计中判断、求解充分统计量的核心工具——因子分解定理(Factorization Theorem)。我们将从底层定义出发,完整拆解每一步推导逻辑,把定理的来龙去脉、核心内涵全部讲透。
一、前置核心概念:充分统计量的定义与本质
因子分解定理的核心是刻画充分统计量,我们必须先把这个基础概念讲清楚。
1. 充分统计量的严格定义
设总体分布族为\(\{f(x;\theta), \theta \in \Theta\}\),其中\(\theta\)是待估未知参数,\(\Theta\)为参数空间;\(X=(X_1,X_2,\dots,X_n)^T\)是来自该总体的\(n\)维简单随机样本。
若统计量\(T=T(X)\)满足:在给定\(T(X)=t\)的条件下,样本\(X\)的条件分布\(f(x|t;\theta)\)与未知参数\(\theta\)无关,则称\(T=T(X)\)是\(\theta\)的充分统计量。
2. 充分统计量的直观本质
充分统计量的核心是无信息损失的信息压缩:
样本\(X\)包含了关于参数\(\theta\)的全部信息,而充分统计量\(T(X)\)将\(n\)维样本的信息压缩到更低维度,且没有丢失任何关于\(\theta\)的信息。换句话说:只要知道了\(T(X)\)的取值,哪怕丢掉原始样本,也不会损失任何关于\(\theta\)的信息,这就是“充分”的含义。
例如正态总体\(N(\mu,1)\)中,样本均值\(\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i\)就是\(\mu\)的充分统计量:知道\(\bar{X}\)后,原始样本的具体取值不再提供关于\(\mu\)的额外信息。
二、数学预备工具:多元随机变量的一一变换与雅可比行列式
定理证明的核心工具是多元随机变量一一变换的密度变换公式,这里先把这个工具的逻辑讲透,避免后续证明出现断层。
1. 变换的设定
设\(n\)维随机变量\(X=(X_1,\dots,X_n)^T\)的概率密度为\(f_X(x)\),存在一一对应的光滑变换:
其逆变换为\(X = X(Z)\),即\(x\)可以唯一表示为\(z\)的函数。
2. 雅可比行列式的定义
逆变换的偏导数构成的行列式称为雅可比行列式:
我们要求该行列式处处不为0,保证变换是光滑可逆的。
3. 密度变换核心公式
\(n\)维随机变量\(Z\)的概率密度为:
反过来,\(X\)的密度也可以用\(Z\)的密度表示:
其中\(\left| \frac{\partial Z}{\partial X} \right| = \left| \frac{\partial X}{\partial Z} \right|^{-1}\),是线性代数中逆矩阵行列式的基本性质。
4. 证明中的变换设计
我们的核心统计量\(T=T(X)\)是\(k\)维的(\(k<n\)),无法直接和\(n\)维样本\(X\)做一一变换。因此我们引入辅助统计量\(W=W(X)\)(\(n-k\)维),使得\(Z=(T,W)\)是\(n\)维统计量,且\(X \leftrightarrow Z=(T,W)\)是一一对应的光滑可逆变换。
举个直观例子:若\(T=\bar{X}\),可取\(W=(X_2,X_3,\dots,X_n)\),此时\(Z=(\bar{X},X_2,\dots,X_n)\),可唯一反解出\(X_1 = n\bar{X} - X_2 - \dots - X_n\),显然是一一变换,雅可比行列式不为0。
这里强调:辅助统计量\(W\)的选取不唯一,且不会影响最终结论,这是证明的巧妙之处。
三、核心引理(引理2.1.2)的完整讲解与证明
这个引理是连接“充分统计量定义”和“因子分解定理”的核心桥梁,我们分步完成证明。
1. 引理内容
在上述一一变换的条件下,\(T(X)\)为\(\theta\)的充分统计量的充要条件是:条件密度\(p(w|t;\theta)\)与未知参数\(\theta\)无关。
2. 引理的直观解读
\(Z=(T,W)\)和\(X\)一一对应,因此“给定\(T\)时\(X\)的分布与\(\theta\)无关”,完全等价于“给定\(T\)时\(Z\)的分布与\(\theta\)无关”。而\(Z=(T,W)\),给定\(T=t\)时,\(Z\)的分布就是\(W\)的条件分布,因此等价于\(W|T\)的分布与\(\theta\)无关。
3. 引理的分步严格证明
我们的证明目标:\(f(x|t;\theta)\)与\(\theta\)无关 \(\iff\) \(p(w|t;\theta)\)与\(\theta\)无关。
步骤1:写出条件密度的定义式
根据条件概率密度的定义,给定\(T=t\)时,样本\(X\)的条件密度为:
符号说明:
- \(I\{x: T(x)=t\}\)是指示函数:当\(T(x)=t\)时取值为1,否则为0,保证条件密度仅在\(T(x)=t\)时有意义;
- \(f_T(t;\theta)\)是统计量\(T\)的边缘概率密度。
步骤2:代入样本密度的变换公式
根据密度变换公式,样本\(X\)的密度可表示为\(Z=(T,W)\)的联合密度形式:
将(2.1.5)代入(2.1.4)的分子,得到:
步骤3:拆分联合密度为边缘×条件
根据条件密度定义,联合密度可拆分为:
其中\(p_T(t;\theta)\)就是\(T\)的边缘密度\(f_T(t;\theta)\)。将其代入上式,分子分母的\(p_T(T(x);\theta)\)可直接约去:
步骤4:分析充要条件
观察最终式子的各项与\(\theta\)的关系:
- 指示函数\(I\{x: T(x)=t\}\):仅和样本\(x\)、统计量\(T\)有关,与\(\theta\)无关;
- 雅可比行列式的绝对值\(\left| \frac{\partial (t,w)}{\partial x} \right|\):仅和变换的函数形式有关,与\(\theta\)无关;
- 仅剩余条件密度\(p\left(W(x)|T(x); \theta\right)\)(即\(p(w|t;\theta)\))与\(\theta\)可能相关。
因此,\(f(x|t;\theta)\)与\(\theta\)无关,当且仅当\(p(w|t;\theta)\)与\(\theta\)无关,引理得证。
四、因子分解定理(定理2.1.1)的完整讲解与证明
1. 定理内容
\(T=T(X)\)为\(\theta\)的充分统计量的充要条件是:样本\(X\)的联合密度\(f(x;\theta)\)可分解为如下形式:
其中:
- \(h(x) \geq 0\):仅关于样本\(x\)的非负可测函数,与参数\(\theta\)完全无关;
- \(g(t;\theta) \geq 0\):仅通过\(T(x)\)依赖于样本\(x\)的非负可测函数,仅和参数\(\theta\)、统计量\(T\)的取值有关。
特别说明:若\(T\)是充分统计量,\(g(t;\theta)\)可取为\(T\)的概率密度函数;但分解式中的\(g(t;\theta)\)不一定是\(T\)的密度,仅需满足形式要求。
2. 定理的直观解读
分解式的核心意义非常清晰:
样本密度被拆分为两部分:
- \(h(x)\):仅和样本有关,与\(\theta\)无关,不包含任何关于\(\theta\)的信息;
- \(g(T(x);\theta)\):与\(\theta\)有关,但仅通过\(T(x)\)依赖样本,所有关于\(\theta\)的信息都被包含在\(T(x)\)中。
这完美对应了充分统计量的本质:\(T(x)\)包含了样本中所有关于\(\theta\)的信息,因此是充分的。
3. 定理的完整证明
我们分必要性和充分性两部分完成证明。
(1)必要性证明(\(T\)是充分统计量\(\implies\) 密度可分解为(2.1.7)形式)
已知\(T=T(X)\)是\(\theta\)的充分统计量,证明分解式成立。
步骤1:写出样本密度的变换式
取辅助统计量\(W\)使得\(Z=(T,W)\)与\(X\)一一对应,根据密度变换公式:
步骤2:拆分联合密度
根据条件密度定义,\(p(t,w;\theta) = p_T(t;\theta) \cdot p(w|t;\theta)\),代入上式:
步骤3:利用充分性条件定义函数
因为\(T\)是充分统计量,由引理2.1.2,\(p(w|t;\theta)\)与\(\theta\)完全无关。我们定义两个函数:
- \(g(T(x);\theta) = p_T\left(T(x); \theta\right)\):\(T\)的边缘密度,仅和\(T(x)\)、\(\theta\)有关,符合要求;
- \(h(x) = p\left(W(x)|T(x); \theta\right) \cdot \left| \frac{\partial (t,w)}{\partial x} \right|\):两项均与\(\theta\)无关,仅和样本\(x\)有关,符合要求。
步骤4:得到分解式
代入后直接得到:
必要性得证。
(2)充分性证明(密度可分解为(2.1.7)形式\(\implies\) \(T\)是充分统计量)
已知样本密度满足\(f(x;\theta) = h(x) \cdot g\left(T(x); \theta\right)\),证明\(T\)是充分统计量。
根据引理2.1.2,只需证明\(p(w|t;\theta)\)与\(\theta\)无关,即可推出\(T\)是充分统计量。
步骤1:写出\(Z=(T,W)\)的联合密度
取辅助统计量\(W\)使得\(Z=(T,W)\)与\(X\)一一对应,根据密度变换公式,\(Z\)的联合密度为:
记雅可比行列式的绝对值为\(|J| = \left| \frac{\partial x}{\partial (t,w)} \right|\),简化书写。
步骤2:代入分解式
将\(f(x;\theta) = h(x)g(T(x);\theta)\)代入,注意\(x=X(t,w)\)时\(T(x)=t\),因此:
步骤3:计算条件密度\(p(w|t;\theta)\)
根据条件密度定义:
将\(p(t,w;\theta)\)代入分子分母:
步骤4:约去与\(\theta\)相关的项
\(g(t;\theta)\)仅和\(t\)、\(\theta\)有关,与积分变量\(w\)无关,可从分母积分中提出,与分子的\(g(t;\theta)\)直接约去:
观察最终式子:分子、分母均与参数\(\theta\)完全无关,因此\(p(w|t;\theta)\)与\(\theta\)无关。
步骤5:由引理推出充分性
根据引理2.1.2,\(p(w|t;\theta)\)与\(\theta\)无关等价于\(T(X)\)是\(\theta\)的充分统计量,充分性得证。
至此,因子分解定理的充要条件全部证明完毕。
五、推论与关键注意事项
1. 推论1:样本\(X\)本身是\(\theta\)的充分统计量
用因子分解定理可直接验证:取\(T(X)=X\),\(h(x)=1\),\(g(T(x);\theta)=f(x;\theta)\),完全符合分解式要求。直观上,原始样本天然包含关于\(\theta\)的全部信息,必然是充分的。
2. 推论2:若\(T(X)\)是充分统计量,且\(T(X)=\varphi(S(X))\)(\(\varphi\)为可测函数),则\(S(X)\)也是充分统计量
证明:\(T\)充分则\(f(x;\theta)=h(x)g(T(x);\theta)=h(x)g(\varphi(S(x));\theta)\),令\(g'(s;\theta)=g(\varphi(s);\theta)\),则\(f(x;\theta)=h(x)g'(S(x);\theta)\),符合分解式要求,因此\(S(X)\)是充分统计量。
3. 关键误区澄清
充分统计量的可测函数,不一定是充分统计量。
推论仅说明“充分统计量的原函数是充分的”,而非“函数是充分的”。例如样本\(X\)是充分统计量,取可测函数\(\varphi(X)=1\)(常数统计量),它不包含任何关于\(\theta\)的信息,显然不是充分统计量。
仅当可测函数是一一对应的可逆变换时,充分统计量的函数才保持充分性(一一对应保证无信息损失)。
六、知识点核心归纳总结
| 分类 | 核心内容 | 关键要点与说明 |
|---|---|---|
| 核心定义 | 充分统计量 | 给定\(T=t\)时,样本\(X\)的条件分布与\(\theta\)无关;本质是无信息损失的样本信息压缩 |
| 数学工具 | 多元随机变量一一变换的密度公式 | $f_X(x) = f_Z(Z(x)) \cdot |
| 核心引理 | 引理2.1.2 | \(T\)为充分统计量\(\iff\) 辅助统计量\(W\)的条件密度$p(w |
| 核心定理 | 因子分解定理 | 样本密度可分解为\(f(x;\theta)=h(x)g(T(x);\theta)\),其中\(h(x)\)与\(\theta\)无关,\(g\)仅通过\(T(x)\)依赖样本 |
| 定理必要性 | 若\(T\)充分,则密度可分解;\(g\)可取\(T\)的边缘密度,\(h\)由条件密度和雅可比行列式构成 | |
| 定理充分性 | 若密度可分解,则\(T\)充分;通过条件密度约去\(g(t;\theta)\),证明$p(w | |
| 核心推论 | 推论1 | 样本\(X\)本身一定是充分统计量,天然包含全部参数信息 |
| 推论2 | 若\(T\)是充分统计量,且\(T=\varphi(S)\)(\(\varphi\)可测),则\(S\)也是充分统计量;信息更完整的统计量保持充分性 | |
| 关键注意事项 | 误区澄清 | 1. 辅助统计量\(W\)不唯一,不影响定理结论; 2. 分解式中\(g(t;\theta)\)不一定是\(T\)的密度,仅需满足形式要求; 3. 充分统计量的可测函数不一定是充分统计量,仅一一可逆变换时保持充分性 |
| 核心价值 | 定理意义 | 将“判断充分性”的概率问题,转化为“函数分解”的代数问题,无需计算复杂条件分布,是参数估计、假设检验的核心基础工具 |
补充说明
因子分解定理对离散型随机变量同样成立,只需将概率密度函数替换为概率质量函数,积分替换为求和,整个证明逻辑完全一致。该定理是后续学习一致最小方差无偏估计、完备统计量等内容的核心基础。
指数族分布的充分统计量定理 系统讲解与推导
本次内容是因子分解定理在指数族分布上的直接应用,我们将从指数族定义出发,完成定理的完整推导、案例拆解与应用拓展,帮你彻底掌握常用分布充分统计量的通用求解方法。
一、前置核心铺垫
1. 指数族分布的标准形式
我们首先明确图片中指数族分布的标准表达式,以及每个部分的含义:
其中:
- \(\theta\):待估的未知参数(可以是一维或k维向量);
- \(h(x) \geq 0\):仅与样本\(x\)有关的非负可测函数,与参数\(\theta\)完全无关;
- \(Q(\theta) = (Q_1(\theta), Q_2(\theta), \dots, Q_k(\theta))^T\):k维参数向量函数,仅与\(\theta\)有关,与样本无关;
- \(T(x) = (T_1(x), T_2(x), \dots, T_k(x))^T\):k维统计量,仅与样本\(x\)有关,与参数无关;
- \(b(\theta)\):仅与\(\theta\)有关的归一化函数(累积量生成函数),保证密度函数的积分/求和为1。
指数族分布是数理统计中最核心的分布族,绝大多数常用分布(二项分布、泊松分布、正态分布、Gamma分布、Beta分布、指数分布等)都属于指数族。
2. 核心工具回顾:因子分解定理
统计量\(T=T(X)\)为\(\theta\)的充分统计量,当且仅当样本联合密度可分解为:
其中\(h(x)\)与\(\theta\)无关,\(g(t;\theta)\)仅通过\(T(x)\)依赖样本。本次定理的所有推导,都基于这个核心定理。
二、定理2.1.2 完整讲解与严格推导
(1)单变量指数族的充分统计量
定理内容
若总体\(X\)服从指数族分布:
则统计量\(T(X) = (T_1(X), \dots, T_k(X))^T\)为\(\theta\)的充分统计量。
严格证明
我们直接套用因子分解定理完成证明:
- 将指数族密度做形式拆分:\[f(x;\theta) = h(x) \cdot \underbrace{e^{Q^T(\theta) T(x) - b(\theta)}}_{g(T(x);\theta)} \]
- 验证因子分解的两个条件:
- 第一部分\(h(x)\):仅与样本\(x\)有关,与参数\(\theta\)完全无关,符合因子分解中\(h(x)\)的要求;
- 第二部分\(g(T(x);\theta) = e^{Q^T(\theta) T(x) - b(\theta)}\):仅通过\(T(x)\)依赖样本\(x\),且仅与参数\(\theta\)、统计量\(T\)的取值有关,完全符合因子分解中\(g(t;\theta)\)的要求。
根据因子分解定理,\(T(X)\)是\(\theta\)的充分统计量,得证。
(2)独立同分布(i.i.d.)样本的指数族充分统计量
定理内容
若\(X_1,X_2,\dots,X_n\)为来自指数族总体的i.i.d.样本,单个样本的分布为:
则样本\(X=(X_1,\dots,X_n)^T\)的联合分布仍为指数族:
且\(\theta\)的充分统计量为:
分步推导与证明
步骤1:推导样本的联合密度
i.i.d.样本的联合密度等于单个样本密度的乘积,因此:
步骤2:拆分乘积项与指数项
根据指数运算规则,乘积的指数等于指数的和,因此拆分得到:
步骤3:化简指数部分
\(Q^T(\theta)\)与求和变量\(i\)无关,可从求和式中提出;\(n\)个\(-b(\theta)\)求和的结果为\(-nb(\theta)\),因此指数部分化简为:
步骤4:得到联合密度的指数族形式
将化简后的指数项代入,得到最终的联合密度:
这依然符合指数族的标准形式。
步骤5:证明充分性(套用因子分解定理)
将联合密度做因子分解拆分:
其中:
- \(h(x) = \prod_{i=1}^n h(x_i)\):仅与样本有关,与\(\theta\)无关;
- \(g(T(X);\theta)\):仅通过\(T(X) = \sum_{i=1}^n T(X_i)\)依赖样本,与\(\theta\)有关。
完全满足因子分解定理的条件,因此\(T(X) = \sum_{i=1}^n T(X_i)\)是\(\theta\)的充分统计量,得证。
三、案例拆解:Gamma分布的充分统计量推导
我们以图片中的Gamma分布为例,完整演示如何套用定理求解充分统计量。
1. Gamma分布的密度与指数族转化
若\(X_1 \sim \Gamma(\lambda, \nu)\)(Gamma分布),其概率密度为:
将其转化为指数族的标准形式,对密度取对数后再指数化:
2. 对应指数族的各个部分
对比标准形式\(f(x,\theta) = h(x) e^{Q^T(\theta) T(x) - b(\theta)}\):
- 未知参数\(\theta = (\lambda, \nu)\);
- \(h(x_1) = 1\)(仅与样本有关,与参数无关);
- 参数函数\(Q^T(\theta) = (-\lambda, \nu-1)\);
- 统计量\(T(x_1) = (x_1, \ln x_1)^T\);
- 归一化项\(-b(\theta) = \nu \ln \lambda - \ln \Gamma(\nu)\),即\(b(\theta) = \ln \Gamma(\nu) - \nu \ln \lambda\)。
3. 求解i.i.d.样本的充分统计量
根据定理2.1.2,i.i.d.样本的充分统计量为单个样本统计量的求和:
利用对数运算性质\(\sum_{i=1}^n \ln X_i = \ln \prod_{i=1}^n X_i\),可改写为:
4. 等价充分统计量
由于对数函数是一一对应的可逆可测变换,不会损失样本信息,因此充分统计量的可逆变换依然是充分统计量。对第二分量取指数,得到等价的充分统计量:
四、常用分布的应用拓展
该定理适用于所有指数族分布,我们给出3个最常用分布的快速应用示例,帮你巩固方法:
1. 泊松分布\(P(\lambda)\)
- 概率质量函数:\(f(x;\lambda) = \frac{\lambda^x e^{-\lambda}}{x!} = \exp\left( x \ln \lambda - \lambda - \ln x! \right)\)
- 对应指数族:\(T(x)=x\),\(Q(\theta)=\ln\lambda\)
- i.i.d.样本的充分统计量:\(T(X) = \sum_{i=1}^n X_i\)(样本和,与样本均值等价)
2. 二项分布\(B(m,p)\)
- 概率质量函数:\(f(x;p) = \mathrm{C}_m^x p^x (1-p)^{m-x} = \exp\left( x \ln \frac{p}{1-p} + m \ln(1-p) + \ln \mathrm{C}_m^x \right)\)
- 对应指数族:\(T(x)=x\),\(Q(\theta)=\ln \frac{p}{1-p}\)
- i.i.d.样本的充分统计量:\(T(X) = \sum_{i=1}^n X_i\)(总成功次数)
3. 正态分布\(N(\mu, \sigma^2)\)
- 概率密度:\(f(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right) = \exp\left( \frac{\mu x}{\sigma^2} - \frac{x^2}{2\sigma^2} - \frac{\mu^2}{2\sigma^2} - \frac{1}{2}\ln(2\pi\sigma^2) \right)\)
- 对应指数族:\(T(x)=(x, x^2)^T\),\(Q^T(\theta)=(\frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2})\)
- i.i.d.样本的充分统计量:\(T(X) = \left( \sum_{i=1}^n X_i, \sum_{i=1}^n X_i^2 \right)\)(与样本均值、样本方差等价)
五、核心内容归纳总结
| 模块 | 核心内容 | 关键要点 |
|---|---|---|
| 基础定义 | 指数族标准形式 | \(f(x,\theta) = h(x) e^{Q^T(\theta) T(x) - b(\theta)}\),核心是将密度拆分为“样本项”和“参数-统计量耦合项” |
| 定理核心1 | 单变量指数族充分统计量 | 指数族中\(T(x)\)是充分统计量,本质是因子分解定理的直接应用 |
| 定理核心2 | i.i.d.样本的充分统计量 | 样本联合分布仍为指数族,充分统计量为单个样本统计量的求和\(\sum_{i=1}^n T(X_i)\) |
| 证明核心 | 推导逻辑 | 1. 独立样本联合密度为边际密度的乘积; 2. 拆分乘积与指数项,化简为指数族标准形式; 3. 套用因子分解定理验证充分性 |
| 核心价值 | 应用意义 | 给出了绝大多数常用分布充分统计量的通用求解方法,无需每次单独推导条件分布或套用因子分解定理,是参数估计、假设检验的核心基础工具 |
| 关键性质 | 等价充分统计量 | 充分统计量的一一可逆可测变换,依然是充分统计量(如求和与均值、对数和与乘积) |
充分统计量经典例题系统讲解与推导
所有例题的核心求解工具是因子分解定理:
设样本\(X=(X_1,\dots,X_n)^T\)的联合密度(概率质量)函数为\(f(x;\theta)\),若\(f(x;\theta)\)可分解为
其中\(h(x)\)是与未知参数\(\theta\)完全无关的非负函数,\(g(t;\theta)\)仅通过统计量\(T(x)\)依赖样本,则\(T(x)\)是\(\theta\)的充分统计量。
求解通用步骤:
- 写出i.i.d.样本的联合密度/概率质量函数;
- 化简整理,拆分出与\(\theta\)无关的\(h(x)\),以及仅含\(T(x)\)与\(\theta\)的\(g(T(x);\theta)\);
- 确定充分统计量\(T(x)\),并给出等价形式(一一可逆变换不改变充分性)。
一、离散型分布例题
例2.1.3 伯努利分布与泊松分布的充分统计量
(1)伯努利分布\(X_1 \sim b(1,\theta)\)(0-1分布)
- 单个样本的概率质量函数:\(f(x_i;\theta) = \theta^{x_i}(1-\theta)^{1-x_i}\),\(x_i \in \{0,1\}\)
- 样本联合分布:
- 拆分结果:\(h(x)=1\)(与\(\theta\)无关),\(g(T;\theta)=\theta^T(1-\theta)^{n-T}\),其中\(T=\sum_{i=1}^n X_i\)。
- 结论:\(T=\sum_{i=1}^n X_i\)(样本总成功次数)是\(\theta\)的充分统计量,等价形式为样本均值\(\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i\)。
(2)泊松分布\(X_1 \sim P(\lambda)\)
- 单个样本的概率质量函数:\(f(x_i;\lambda) = \frac{\lambda^{x_i}e^{-\lambda}}{x_i!}\),\(x_i=0,1,2,\dots\)
- 样本联合分布:
- 拆分结果:\(h(x)=\prod_{i=1}^n \frac{1}{x_i!}\)(与\(\lambda\)无关),\(g(T;\lambda)=e^{-n\lambda}\lambda^T\),其中\(T=\sum_{i=1}^n X_i\)。
- 结论:\(T=\sum_{i=1}^n X_i\)是\(\lambda\)的充分统计量,等价形式为样本均值\(\bar{X}\)。
二、通用分布与连续型指数族例题
例2.1.4 任意分布的顺序统计量充分性
- 样本联合密度:对任意i.i.d.样本,联合密度为\(f(x;\theta)=\prod_{i=1}^n f(x_i;\theta)\)。
- 化简核心:乘法满足交换律,\(\prod_{i=1}^n f(x_i;\theta) = \prod_{i=1}^n f(x_{(i)};\theta)\),其中\(x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(n)}\)是样本的顺序统计量。
- 拆分结果:\(f(x;\theta) = g(x_{(1)},\dots,x_{(n)};\theta) \cdot 1\),\(h(x)=1\)与\(\theta\)无关。
- 结论:全体顺序统计量\((X_{(1)},X_{(2)},\dots,X_{(n)})\)是任意分布的充分统计量。
注:该统计量与原始样本信息完全等价,无信息压缩,是最基础的充分统计量。
例2.1.5 正态分布\(N(\mu,\sigma^2)\)的充分统计量
单个样本的概率密度:\(f(x_i;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{ -\frac{(x_i-\mu)^2}{2\sigma^2} \right\}\)
样本联合密度:
展开平方项:\(\sum_{i=1}^n (x_i-\mu)^2 = \sum_{i=1}^n x_i^2 - 2\mu \sum_{i=1}^n x_i + n\mu^2\),代入得:
(1)\(\sigma\)已知,仅\(\mu\)为未知参数
- 拆分结果:与\(\mu\)无关的部分\(h(x) = \left( \frac{1}{\sqrt{2\pi}\sigma} \right)^n \exp\left\{ -\frac{1}{2\sigma^2}\sum_{i=1}^n x_i^2 \right\}\),与\(\mu\)有关的部分仅依赖\(T=\sum_{i=1}^n x_i\)。
- 结论:\(T=\sum_{i=1}^n X_i\)(或等价的\(\bar{X}\))是\(\mu\)的充分统计量。
(2)\(\sigma\)未知(\(\mu\)已知/未知均成立)
- 未知参数为\(\theta=(\mu,\sigma^2)\),联合密度中与\(\theta\)有关的部分同时依赖\(\sum_{i=1}^n x_i\)和\(\sum_{i=1}^n x_i^2\)。
- 结论:\(T=\left( \sum_{i=1}^n X_i, \sum_{i=1}^n X_i^2 \right)\)是充分统计量,等价形式为\((\bar{X}, S^2)\),其中\(S^2=\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2\)为样本方差。
例2.1.9 Gamma分布与Beta分布的充分统计量
(1)Gamma分布\(X_1 \sim \Gamma(\lambda,p)\)
单个样本的概率密度:\(f(x_i;\lambda,p) = \frac{\lambda^p}{\Gamma(p)} e^{-\lambda x_i} x_i^{p-1} I\{x_i \geq 0\}\),\(x_i>0\)
样本联合密度:
- 结论:\(T=\left( \sum_{i=1}^n X_i, \prod_{i=1}^n X_i \right)\)是\((\lambda,p)\)的充分统计量,等价形式为\(\left( \sum_{i=1}^n X_i, \sum_{i=1}^n \ln X_i \right)\)。
(2)Beta分布\(X_1 \sim BE(p,q)\)
单个样本的概率密度:\(f(x_i;p,q) = \frac{1}{\beta(p,q)} x_i^{p-1} (1-x_i)^{q-1} I\{0 \leq x_i \leq 1\}\),\(0<x_i<1\)
样本联合密度:
- 结论:\(T=\left( \prod_{i=1}^n X_i, \prod_{i=1}^n (1-X_i) \right)\)是\((p,q)\)的充分统计量,等价形式为\(\left( \sum_{i=1}^n \ln X_i, \sum_{i=1}^n \ln (1-X_i) \right)\)。
三、带支撑约束的分布(指示函数处理)
这类分布的核心是化简指示函数,支撑边界由顺序统计量决定,是求解的关键。
例2.1.6 均匀分布\(R(\theta_1,\theta_2)\)(\(U(\theta_1,\theta_2)\))
单个样本的概率密度:\(f(x_i;\theta_1,\theta_2) = \frac{1}{\theta_2-\theta_1} I\{\theta_1 \leq x_i \leq \theta_2\}\)
样本联合密度:
指示函数化简核心:所有\(x_i\)满足\(\theta_1 \leq x_i \leq \theta_2\),等价于最小值\(x_{(1)} \geq \theta_1\)且最大值\(x_{(n)} \leq \theta_2\),即:
因此联合密度可写为:
- 全参数未知:\(T=(X_{(1)}, X_{(n)})\)(样本极小值、极大值)是\((\theta_1,\theta_2)\)的充分统计量;
- \(\theta_1\)已知:仅\(X_{(n)}\)是\(\theta_2\)的充分统计量;
- \(\theta_2\)已知:仅\(X_{(1)}\)是\(\theta_1\)的充分统计量;
- 特殊情况\(U(0,\theta)\):\(X_{(n)}\)是\(\theta\)的充分统计量。
例2.1.7 平移指数分布\(X_1 \sim \mu + E(\lambda)\)(位置-尺度指数分布)
\(X_1 - \mu \sim Exp(\lambda)\),单个样本的概率密度:\(f(x_i;\mu,\lambda) = \lambda e^{-\lambda(x_i-\mu)} I\{x_i \geq \mu\}\)
(1)\(\lambda=1\)已知,仅\(\mu\)未知
样本联合密度:
- 拆分结果:\(h(x)=e^{-\sum x_i}\)与\(\mu\)无关,\(g(T;\mu)=e^{n\mu}I\{T \geq \mu\}\),\(T=X_{(1)}\)。
- 结论:样本极小值\(X_{(1)}\)是\(\mu\)的充分统计量。
(2)\(\lambda,\mu\)均未知
样本联合密度:
- 结论:\(T=(X_{(1)}, \sum_{i=1}^n X_i)\)是\((\lambda,\mu)\)的充分统计量,常用等价形式为\((X_{(1)}, S)\),其中\(S=\sum_{i=1}^n (X_i - X_{(1)})\),二者一一对应。
例2.1.8 截尾指数分布(定数截尾)
仅观察到前\(r\)个顺序统计量\((X_{(1)},\dots,X_{(r)})=(Y_1,\dots,Y_r)\),样本联合密度为:
化简后,与参数\((\lambda,\mu)\)有关的部分依赖\(Y_1=X_{(1)}\)和\(T_{n,r}=\sum_{i=1}^r X_{(i)} + (n-r)X_{(r)}\)。
- 结论:\(T=(X_{(1)}, T_{n,r})\)是充分统计量,等价形式为\((X_{(1)}, S_1)\),其中\(S_1=T_{n,r} - nX_{(1)}\)。
四、多元分布例题
例2.1.10 二元正态分布\((X_1,Y_1) \sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\)
未知参数\(\theta=(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\),n个样本的联合密度展开后,平方项可拆分为:
代入联合密度后,与5个参数有关的部分依赖5个统计量:
-
样本均值:\(\bar{X}, \bar{Y}\)
-
样本离均差平方和:\(S(X)=\sum_{i=1}^n (X_i-\bar{X})^2\),\(S(Y)=\sum_{i=1}^n (Y_i-\bar{Y})^2\)
-
样本离均差乘积和:\(S(X,Y)=\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})\)
-
全参数未知:\(T=(\bar{X},\bar{Y}, S(X), S(Y), S(X,Y))\)是充分统计量;
-
\(\rho=0\)(独立):充分统计量为\((\bar{X},\bar{Y}, S(X), S(Y))\);
-
\(\rho,\sigma_1,\sigma_2\)已知:充分统计量为\((\bar{X},\bar{Y})\)。
五、核心规律与例题汇总表
核心求解技巧
- 指数族分布可直接套用定理,充分统计量为单个样本统计量的求和;
- 带支撑的分布,核心是化简指示函数,支撑边界对应顺序统计量(极小/极大值);
- 多参数分布的充分统计量维度,通常与独立未知参数个数一致;
- 充分统计量的一一可逆可测变换,仍为充分统计量,可按需选择等价形式。
例题汇总表
| 分布类型 | 未知参数 | 充分统计量 | 等价常用形式 |
|---|---|---|---|
| 伯努利分布\(b(1,\theta)\) | \(\theta\) | \(\sum_{i=1}^n X_i\) | \(\bar{X}\) |
| 泊松分布\(P(\lambda)\) | \(\lambda\) | \(\sum_{i=1}^n X_i\) | \(\bar{X}\) |
| 正态分布\(N(\mu,\sigma^2)\) | \(\mu\)(\(\sigma\)已知) | \(\sum_{i=1}^n X_i\) | \(\bar{X}\) |
| 正态分布\(N(\mu,\sigma^2)\) | \((\mu,\sigma^2)\) | \(\left( \sum X_i, \sum X_i^2 \right)\) | \((\bar{X}, S^2)\) |
| 均匀分布\(U(\theta_1,\theta_2)\) | \((\theta_1,\theta_2)\) | \((X_{(1)}, X_{(n)})\) | - |
| 平移指数分布\(\mu+E(1)\) | \(\mu\) | \(X_{(1)}\) | - |
| 平移指数分布\(\mu+E(\lambda)\) | \((\mu,\lambda)\) | \((X_{(1)}, \sum X_i)\) | \((X_{(1)}, \sum (X_i-X_{(1)}))\) |
| Gamma分布\(\Gamma(\lambda,p)\) | \((\lambda,p)\) | \(\left( \sum X_i, \prod X_i \right)\) | \(\left( \sum X_i, \sum \ln X_i \right)\) |
| Beta分布\(BE(p,q)\) | \((p,q)\) | \(\left( \prod X_i, \prod (1-X_i) \right)\) | \(\left( \sum \ln X_i, \sum \ln (1-X_i) \right)\) |
| 二元正态分布 | \((\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\) | \((\bar{X},\bar{Y}, S(X), S(Y), S(X,Y))\) | - |
| 任意分布 | 任意 | \((X_{(1)},X_{(2)},\dots,X_{(n)})\) | 原始样本\(X\) |
posted on 2026-02-23 13:08 Indian_Mysore 阅读(0) 评论(0) 收藏 举报
浙公网安备 33010602011771号