4.3.1 尺度参数分布族的相似变换群与同变估计
尺度参数分布族的相似变换群与同变估计 详细讲解与推导
我将以多年数理统计研究与教学的经验,从基础定义出发,逐步完成全流程推导,拆解核心逻辑,最后进行结构化归纳总结。
一、前置基础:尺度参数分布族的定义与核心性质
1. 尺度参数分布族的定义
对于n维随机变量\(X\),若其概率密度函数可表示为:
其中参数\(\sigma \in \Theta = (0, +\infty)\),则称该分布族为尺度参数分布族,\(\sigma\)为尺度参数。
- 当\(\sigma=1\)时,\(X \sim P_1\),密度为\(f(x)\),称为该分布族的标准分布。
- 典型例子:正态分布\(N(0,\sigma^2)\)、均匀分布\(R(0,\sigma)\),均严格符合上述形式。
2. 核心性质的严格证明
性质:若\(X \sim P_\sigma\),则\(Y = X/\sigma \sim P_1\)(与\(\sigma\)无关的标准分布);反之,若\(Y \sim P_1\),则\(X = \sigma Y \sim P_\sigma\)。
证明:
利用n维随机变量线性变换的密度公式:若\(Y = g(X)\),则\(p_Y(y) = p_X(g^{-1}(y)) \cdot |J|\),其中\(|J|\)为逆变换的雅可比行列式。
-
正向推导:\(Y = X/\sigma\),逆变换为\(X = \sigma Y\),雅可比矩阵为对角矩阵,对角元均为\(\sigma\),故\(|J| = \sigma^n\)。
代入\(X\)的密度:\[p_Y(y) = p_X(\sigma y) \cdot \sigma^n = \frac{1}{\sigma^n}f\left( \frac{\sigma y}{\sigma} \right) \cdot \sigma^n = f(y) \]即\(Y \sim P_1\),与\(\sigma\)完全无关。
-
反向推导:\(X = \sigma Y\),逆变换为\(Y = X/\sigma\),雅可比行列式\(|J| = 1/\sigma^n\)。
代入\(Y\)的密度\(f(y)\):\[p_X(x) = f\left( \frac{x}{\sigma} \right) \cdot \frac{1}{\sigma^n} = \frac{1}{\sigma^n}f\left( \frac{x}{\sigma} \right) \]即\(X \sim P_\sigma\),证毕。
该性质是整个同变估计体系的核心基石:尺度参数的影响仅体现为样本的尺度缩放,可通过除以\(\sigma\)完全消除,转化为无未知参数的标准分布问题。
二、相似变换群的定义与不变分布族证明
同变估计的核心思想是:样本做尺度变换时,参数、估计量、损失函数应做对应变换,保证估计的“合理性”与“不变性”。我们需要依次定义样本空间、参数空间、决策空间上的变换群。
1. 样本空间的相似变换群
给定样本空间\(\mathcal{X}\)(n维随机变量的取值空间),定义相似变换集合:
\(g_k\)的含义是对样本的每个分量做尺度为\(k\)的缩放。
严格证明\(G\)是一个群(满足群的四大公理):
- 封闭性:对任意\(g_{k_1}, g_{k_2} \in G\),\(g_{k_1} \circ g_{k_2}(x) = g_{k_1}(k_2 x) = k_1 k_2 x = g_{k_1 k_2}(x)\),\(k_1 k_2>0\),故\(g_{k_1 k_2} \in G\)。
- 结合律:变换的复合天然满足结合律,\((g_{k_1} \circ g_{k_2}) \circ g_{k_3} = g_{k_1} \circ (g_{k_2} \circ g_{k_3})\)。
- 单位元:取\(k=1\),\(g_1 x = x\)为恒等变换,属于\(G\)。
- 逆元:对任意\(g_k \in G\),取\(k'=1/k>0\),\(g_{k'} \circ g_k(x) = x\),故\(g_{k'}\)是\(g_k\)的逆元,属于\(G\)。
因此\(G\)是样本空间上的相似变换群。
2. 参数空间的导出群与不变分布族证明
我们需要推导:样本做变换\(g_k X = kX\)后,分布的参数如何变化,以此定义参数空间的导出群。
步骤1:推导变换后样本的分布
已知\(X \sim P_\sigma\),密度为\(\frac{1}{\sigma^n}f(x/\sigma)\),令\(Y = g_k X = kX\),逆变换为\(X = Y/k\),雅可比行列式\(|J| = 1/k^n\)。
则\(Y\)的密度为:
对比尺度参数分布族的定义,\(Y\)的密度恰好是\(P_{k\sigma}\)的密度,即\(Y \sim P_{k\sigma}\),参数从\(\sigma\)变为\(\sigma' = k\sigma\)。
步骤2:定义参数空间的导出群
参数空间\(\Theta=(0,+\infty)\)上的变换集合:
与样本变换群\(G\)的证明完全一致,可证\(\bar{G}\)是一个群,称为样本变换群\(G\)在参数空间上的导出群。
步骤3:不变分布族的结论
定义:若对任意\(g_k \in G\),\(X \sim P_\sigma\)可推出\(g_k X \sim P_{\bar{g}_k \sigma}\)(变换后的分布仍属于原分布族),则称该分布族为变换群\(G\)下的不变分布族。
我们的推导已严格证明:尺度参数分布族是相似变换群\(G\)下的不变分布族。
三、决策空间的导出群与同变估计条件
我们的目标是估计尺度参数\(\sigma\)(或其幂次\(\sigma^r\)),需要定义决策空间(估计量的取值空间)的导出群,并给出同变估计的约束条件。
同变估计的核心准则:当样本做变换\(g_k x\)、参数做变换\(\bar{g}_k \sigma\)时,估计量(决策)必须做对应的变换,即:
其中\(\delta(x)\)为估计量,\(g_k^*\)为决策空间的导出变换。
情况1:估计参数\(\sigma\)
1. 决策空间的导出群
待估参数为\(\sigma\),参数变换为\(\sigma' = k\sigma\),因此估计量\(d\)应做同比例变换\(d' = kd\)。
定义决策空间的导出变换:
显然\(G^* = \bar{G}\),与参数空间的导出群完全一致。
2. 同变条件的推导与化简
将\(g_k x = kx\)、\(g_k^* \delta(x) = k\widehat{\sigma}(x)\)代入同变准则,得到\(\sigma\)的同变估计必须满足的条件:
该式的本质是估计量的一次齐次性。
对该式做关键化简:取\(k = \sigma^{-1}\)(\(\sigma>0\),\(k>0\)为合法变换),代入得:
3. 同变估计的一般形式
将(4.3.2)变形,得到:
令\(Z = X/\sigma\),由前置性质可知\(Z \sim P_1\),与\(\sigma\)完全无关,记\(h(Z) = \widehat{\sigma}(Z)\),则\(\sigma\)的同变估计可统一表示为:
这一形式完全刻画了所有同变估计的结构,是后续求解最小风险同变估计(MREE)的核心基础。
情况2:估计参数\(\sigma^r\)(\(r\)为任意实数)
该情况为一般情形,覆盖了方差\(\sigma^2\)(\(r=2\))、精度\(1/\sigma^2\)(\(r=-2\))等常见估计场景。
1. 决策空间的导出群
待估参数为\(\sigma^r\),当参数变换为\(\sigma' = k\sigma\)时,待估参数的变换为\((\sigma')^r = (k\sigma)^r = k^r \sigma^r\),因此估计量\(d\)应做对应变换\(d' = k^r d\)。
定义决策空间的导出变换:
2. 同变条件的推导与化简
将\(g_k x = kx\)、\(\widetilde{g}_k^* \delta(x) = k^r \widehat{\sigma^r}(x)\)代入同变准则,得到\(\sigma^r\)的同变估计必须满足的条件:
该式的本质是估计量的r次齐次性。
同样取\(k = \sigma^{-1}\)代入,化简得:
3. 同变估计的一般形式
变形后得到\(\sigma^r\)的同变估计的统一形式:
四、相似同变损失函数
损失函数\(L(\sigma,d)\)衡量“真实参数为\(\sigma\),用\(d\)作为估计”的损失。对于同变估计,要求损失函数具有变换不变性:样本、参数、估计量做对应变换后,损失保持不变,即:
情况1:估计\(\sigma\)时的同变损失函数
此时参数变换为\(\bar{g}_k \sigma = k\sigma\),决策变换为\(g_k^* d = kd\),因此同变损失条件为:
化简与一般形式
取\(k = \sigma^{-1}\)代入上式,得:
令\(\rho(t) = L(1, t)\)(\(t = d/\sigma\)),则同变损失函数的一般形式为:
核心结论:估计\(\sigma\)时,同变损失函数必须是\(d/\sigma\)的函数,仅与估计量和真实参数的相对比值有关,与绝对尺度无关,完美适配尺度参数的估计特性。
常用同变损失函数
- 相对均方损失:取\(\rho(t) = (1-t)^2\),则\[L(\sigma, d) = \left( 1 - \frac{d}{\sigma} \right)^2 = \frac{(d-\sigma)^2}{\sigma^2} \]
- 相对绝对损失:取\(\rho(t) = |1-t|\),则\[L(\sigma, d) = \left| 1 - \frac{d}{\sigma} \right| \]
情况2:估计\(\sigma^r\)时的同变损失函数
此时参数变换为\(\bar{g}_k \sigma = k\sigma\),决策变换为\(\widetilde{g}_k^* d = k^r d\),因此同变损失条件为:
化简与一般形式
取\(k = \sigma^{-1}\)代入,得:
令\(\rho(t) = L(1, t)\)(\(t = d/\sigma^r\)),则同变损失函数的一般形式为:
常用同变损失函数
- 相对均方损失:取\(\rho(t) = (1-t)^2\),则\[L(\sigma, d) = \left( 1 - \frac{d}{\sigma^r} \right)^2 = \frac{(d-\sigma^r)^2}{\sigma^{2r}} \]
- 相对绝对损失:取\(\rho(t) = |1-t|\),则\[L(\sigma, d) = \left| 1 - \frac{d}{\sigma^r} \right| \]
五、核心知识点归纳总结表
| 分类维度 | 估计\(\sigma\)(\(r=1\)) | 估计\(\sigma^r\)(一般情形) |
|---|---|---|
| 尺度参数分布族定义 | 密度\(p(x,\sigma)=\frac{1}{\sigma^n}f\left(\frac{x}{\sigma}\right)\),\(\sigma>0\);\(X/\sigma \sim P_1\)(与\(\sigma\)无关的标准分布) | 同左,待估参数为\(\sigma^r\)(\(r \in \mathbb{R}\)) |
| 样本空间相似变换群 | \(G=\{g_k: k>0\}\),\(g_k x = kx\),对样本做尺度缩放 | 同左 |
| 参数空间导出群 | \(\bar{G}=\{\bar{g}_k: k>0\}\),\(\bar{g}_k \sigma = k\sigma\),参数同比例缩放 | 同左,待估参数变换:\(\sigma^r \to k^r \sigma^r\) |
| 决策空间导出群 | \(G^*=\bar{G}\),\(g_k^* d = kd\),估计量同比例缩放 | \(\widetilde{G}^*=\{\widetilde{g}_k^*: k>0\}\),\(\widetilde{g}_k^* d = k^r d\) |
| 同变估计核心条件 | 一次齐次性:\(\widehat{\sigma}(kx) = k \widehat{\sigma}(x)\) 等价形式:\(\widehat{\sigma}(x/\sigma) = \widehat{\sigma}(x)/\sigma\) |
r次齐次性:\(\widehat{\sigma^r}(kx) = k^r \widehat{\sigma^r}(x)\) 等价形式:\(\widehat{\sigma^r}(x/\sigma) = \widehat{\sigma^r}(x)/\sigma^r\) |
| 同变估计一般形式 | \(\widehat{\sigma}(X) = \sigma \cdot h(Z)\),\(Z=X/\sigma \sim P_1\),\(h(Z)\)与\(\sigma\)无关 | \(\widehat{\sigma^r}(X) = \sigma^r \cdot h(Z)\),\(Z=X/\sigma \sim P_1\),\(h(Z)\)与\(\sigma\)无关 |
| 同变损失函数条件 | \(L(\sigma,d) = L(k\sigma, kd), \ \forall k>0\) | \(L(\sigma,d) = L(k\sigma, k^r d), \ \forall k>0\) |
| 同变损失函数一般形式 | \(L(\sigma,d) = \rho\left( \frac{d}{\sigma} \right)\),\(\rho(t)=L(1,t)\) | \(L(\sigma,d) = \rho\left( \frac{d}{\sigma^r} \right)\),\(\rho(t)=L(1,t)\) |
| 常用同变损失函数 | 1. 相对均方损失:\(\frac{(d-\sigma)^2}{\sigma^2}\) 2. 相对绝对损失:\(\left|1-\frac{d}{\sigma}\right|\) |
1. 相对均方损失:\(\frac{(d-\sigma^r)^2}{\sigma^{2r}}\) 2. 相对绝对损失:\(\left|1-\frac{d}{\sigma^r}\right|\) |
| 核心特性 | 估计量齐次性、损失尺度不变性,风险仅与相对误差有关 | 同左,适配所有幂次尺度参数的估计场景 |
六、资深研究员的经验提示
- 同变估计的本质是利用分布族的对称性,消除未知参数的影响,将带参数的估计问题转化为无参数的标准分布问题,大幅简化最小风险估计的求解。
- 普通均方损失\((d-\sigma)^2\)不适合尺度参数估计:尺度变换后损失会随尺度平方放大,无法衡量估计的相对优劣;而相对均方损失具有严格的尺度不变性,是尺度参数估计的天然选择。
- 常用的样本标准差\(S\)满足\(S(kX)=kS(X)\),符合\(\sigma\)的同变条件,这是其作为\(\sigma\)常用估计量的核心理论依据。
- 后续求解最小风险同变估计(MREE),只需在同变估计的一般形式中,找到使风险\(E[L(\sigma,\widehat{\sigma})]\)最小的\(h(Z)\),而风险与\(\sigma\)无关,仅需在\(\sigma=1\)的标准分布下计算即可。
尺度参数的最优同变估计 全知识点详解与严格推导
我将以多年数理统计科研与教学的经验,承接上一节尺度参数分布族与相似变换群的基础,从核心概念出发,完成所有引理、定理的完整推导,拆解逻辑链条,最终进行结构化归纳总结。
一、章节核心目标与逻辑框架
上一节我们定义了尺度参数分布族的相似变换群、同变估计的齐次性约束、同变损失函数。本节的核心目标是:在所有满足同变性的估计中,找到风险最小的估计——最小风险同变估计(MREE,即最优同变估计)。
整体逻辑链条为:
- 定义相似不变量,刻画尺度变换下保持不变的统计量;
- 通过3个引理,推导出所有同变估计的统一结构,将无穷多的同变估计转化为“固定同变估计×不变量函数”的形式;
- 借助均方误差最小化引理,推导出核心的Pitman定理,给出最优同变估计的显式表达式;
- 结合完备充分统计量,给出定理的实用推论,覆盖绝大多数实际应用场景;
- 通过经典例题,演示最优同变估计的求解步骤与实际意义。
二、核心概念:相似不变量与最大不变量
1. 相似不变量的定义
对于样本空间上的相似变换群\(G=\{g_k: k>0\}\)(\(g_k x = kx\),即对样本做尺度为\(k\)的缩放),若统计量\(u(X)\)满足:
即样本做任意尺度缩放后,统计量的值保持不变,则称\(u(X)\)为相似不变量。
核心性质:相似不变量的分布仅与\(\sigma=1\)时的标准分布\(P_1\)有关,与未知参数\(\sigma\)完全无关,因此是辅助统计量。
2. 最大不变量的定义
统计量\(Z(X)\)称为相似变换群的最大不变量,当且仅当:
- \(Z(X)\)是相似不变量,即\(Z(g_k X)=Z(X), \forall k>0\);
- 任何相似不变量\(u(X)\),都可以表示为\(Z(X)\)的函数,即\(u(X)=\psi(Z(X))\)。
最大不变量的核心意义:它完全消去了样本中关于尺度参数\(\sigma\)的所有信息,刻画了所有不变量的结构,是求解最优同变估计的核心工具。
三、核心引理的详细讲解与严格证明
引理4.3.1 同变估计与不变量的对应关系
引理内容:若\(\widehat{\sigma}_1(x)\)和\(\widehat{\sigma}_2(x)\)为\(\sigma\)的相似同变估计,则\(u(x)=\frac{\widehat{\sigma}_1(x)}{\widehat{\sigma}_2(x)}\)为相似不变量;反之,若\(u(x)\)为相似不变量,\(\widehat{\sigma}_1(x)\)为相似同变估计,则\(\widehat{\sigma}_2(x)=\widehat{\sigma}_1(x)u(x)\)也为相似同变估计。
引理意义:建立了同变估计与不变量的一一对应关系,证明了“所有同变估计都可以表示为某个固定同变估计乘以一个不变量”,为刻画所有同变估计的结构奠定基础。
严格证明:
-
正向证明(同变估计的比值是不变量)
由同变估计的定义,\(\widehat{\sigma}_1(kx)=k\widehat{\sigma}_1(x)\),\(\widehat{\sigma}_2(kx)=k\widehat{\sigma}_2(x)\),因此:\[u(kx) = \frac{\widehat{\sigma}_1(kx)}{\widehat{\sigma}_2(kx)} = \frac{k\widehat{\sigma}_1(x)}{k\widehat{\sigma}_2(x)} = \frac{\widehat{\sigma}_1(x)}{\widehat{\sigma}_2(x)} = u(x) \]满足相似不变量的定义,证毕。
-
反向证明(同变估计×不变量仍是同变估计)
已知\(u(kx)=u(x)\),\(\widehat{\sigma}_1(kx)=k\widehat{\sigma}_1(x)\),因此:\[\widehat{\sigma}_2(kx) = \widehat{\sigma}_1(kx)u(kx) = k\widehat{\sigma}_1(x)u(x) = k\widehat{\sigma}_2(x) \]满足同变估计的一次齐次性条件,因此\(\widehat{\sigma}_2(x)\)是相似同变估计,证毕。
引理4.3.2 不变量的结构与最大不变量
引理内容:\(u(x)\)为相似不变量的充要条件是:存在函数\(\psi(\cdot)\),使得\(u(x)=\psi(Z(x))\),其中最大不变量\(Z=(z_1,z_2,\dots,z_n)^T\)的分量为:
(要求\(P(|X_1|=0)=0\),即\(X_1\)几乎处处不为0),且\(u(X)\)的分布仅与标准分布\(P_1\)有关,与\(\sigma\)无关。
引理意义:完全刻画了所有相似不变量的结构,证明了任何不变量都可以表示为最大不变量的函数,同时证明了不变量的分布与\(\sigma\)无关,为后续消除未知参数、简化期望计算提供了核心依据。
严格证明:
-
必要性(不变量必为最大不变量的函数)
已知\(u(x)\)是相似不变量,即对任意\(k>0\),有\(u(kx_1,kx_2,\dots,kx_n)=u(x_1,x_2,\dots,x_n)\)。
取\(k=\frac{1}{|x_1|}\)(因\(|x_1|>0\),\(k>0\)为合法变换),代入不变量条件得:\[u(x_1,x_2,\dots,x_n) = u\left( \frac{x_1}{|x_1|}, \frac{x_2}{|x_1|}, \dots, \frac{x_n}{|x_1|} \right) \]结合最大不变量的定义,\(\frac{x_i}{|x_1|} = \frac{x_i}{x_1} \cdot \frac{x_1}{|x_1|} = z_i z_1\),因此上式可改写为:
\[u(x_1,\dots,x_n) = u(z_1, z_1 z_2, \dots, z_1 z_n) = \psi(z_1,z_2,\dots,z_n) = \psi(Z(x)) \]即\(u(x)\)可表示为最大不变量\(Z\)的函数,必要性得证。
-
充分性(最大不变量的函数必为不变量)
若\(u(x)=\psi(Z(x))\),首先验证\(Z\)是不变量:对任意\(k>0\),\[z_1(kx) = \frac{kx_1}{|kx_1|} = \frac{kx_1}{k|x_1|} = \frac{x_1}{|x_1|} = z_1(x), \quad z_i(kx) = \frac{kx_i}{kx_1} = \frac{x_i}{x_1} = z_i(x) \]因此\(Z(kx)=Z(x)\),进而\(u(kx)=\psi(Z(kx))=\psi(Z(x))=u(x)\),即\(u(x)\)是相似不变量。
同时,\(Z(X)=Z(X/\sigma)\),而\(X/\sigma \sim P_1\)与\(\sigma\)无关,因此\(u(X)=\psi(Z(X))\)的分布仅由\(P_1\)决定,与\(\sigma\)无关,充分性得证。
补充说明:
- 最大不变量不唯一,例如取\(k=1/|x_n|\)可构造另一组最大不变量,只要能完全消去尺度信息即可;
- 直观例子:\(|X_1|\)是同变估计,而\(X_1/X_n\)、\(X_{(1)}/X_{(n)}\)是不变量(缩放后\(k\)约去,值不变)。
引理4.3.3 所有同变估计的统一表达式
引理内容:设\(\widehat{\sigma}_1(x)\)为某一相似同变估计,则任一相似同变估计\(\widehat{\sigma}^*(x)\)可表示为:
其中\(\psi(\cdot)\)是关于最大不变量\(Z\)的函数。
引理意义:将“寻找所有同变估计”的无穷维问题,转化为“寻找一个关于最大不变量的函数\(\psi\)”的低维问题,是求解最优同变估计的核心基础。
严格证明:
由引理4.3.1,\(\widehat{\sigma}^*(x)\)和\(\widehat{\sigma}_1(x)\)都是同变估计,因此\(u(x)=\frac{\widehat{\sigma}^*(x)}{\widehat{\sigma}_1(x)}\)是相似不变量;
再由引理4.3.2,任何相似不变量都可表示为最大不变量\(Z\)的函数,即\(u(x)=\psi(Z(x))\);
因此\(\widehat{\sigma}^*(x) = \widehat{\sigma}_1(x) \cdot u(x) = \widehat{\sigma}_1(x) \cdot \psi(Z(x))\),证毕。
引理4.3.4 均方误差的最小化引理
引理内容:记均方误差\(MSE = E\left[ a(X) + b(X)\psi(Y) \right]^2\),则当
时,MSE达到最小值。
引理意义:这是求解带条件期望的均方误差最小值的核心数学工具,是后续Pitman定理证明的关键,本质是条件期望下的最小二乘优化。
严格证明:
-
利用重期望公式(全期望公式),将MSE展开为条件期望的嵌套形式:
\[MSE = E\left\{ E\left[ \left( a(X) + b(X)\psi(Y) \right)^2 \mid Y \right] \right\} \] -
分析内层条件期望:当给定\(Y\)时,\(\psi(Y)\)是确定的常数,记为\(\lambda\),此时内层期望变为关于\(\lambda\)的一元二次函数:
\[f(\lambda) = E\left[ \left( a(X) + b(X)\lambda \right)^2 \mid Y \right] \] -
展开平方项,利用条件期望的线性性质:
\[f(\lambda) = \lambda^2 \cdot E\left[ b^2(X) \mid Y \right] + 2\lambda \cdot E\left[ a(X)b(X) \mid Y \right] + E\left[ a^2(X) \mid Y \right] \] -
二次函数最小值求解:
这是开口向上的二次函数(二次项系数\(E[b^2(X)|Y] \geq 0\)),最小值在一阶导数为0处取得。求导得:\[f'(\lambda) = 2\lambda E\left[ b^2(X) \mid Y \right] + 2E\left[ a(X)b(X) \mid Y \right] \]令\(f'(\lambda)=0\),解得:
\[\lambda = -\frac{E\left[ a(X)b(X) \mid Y \right]}{E\left[ b^2(X) \mid Y \right]} \]二阶导数\(f''(\lambda)=2E[b^2(X)|Y] \geq 0\),因此该点为全局最小值点。
-
该最优\(\lambda\)是关于\(Y\)的函数,即\(\psi(Y)\),此时内层条件期望达到最小,外层对\(Y\)的期望也随之达到最小,因此MSE全局最小,证毕。
四、核心定理:Pitman定理(尺度参数最优同变估计)
定理内容
设\(\widehat{\sigma}(X)\)为\(\sigma\)的某一个相似同变估计,则在相对均方损失\(L(\sigma,d)=\frac{(d-\sigma)^2}{\sigma^2}\)下,\(\sigma\)的最优同变估计为:
其中\(E_1\)表示对标准分布\(P_1\)(\(\sigma=1\)时的分布)取期望,\(Z\)为最大不变量;且该最优解唯一,与初始同变估计\(\widehat{\sigma}(X)\)的选取无关。
定理意义
Pitman定理是尺度参数同变估计的核心结论,它给出了最优同变估计的显式表达式,证明了最优解的唯一性,且允许我们选择任意简单的初始同变估计进行计算,大幅降低了求解难度。
严格证明
证明分为两部分:最优性证明(该表达式使风险最小)和唯一性证明(结果与初始估计无关)。
1. 最优性证明
步骤1:确定同变估计的结构与风险函数
根据引理4.3.3,所有同变估计都可表示为\(\widehat{\sigma}^*(X) = \widehat{\sigma}(X)\psi(Z)\),我们的目标是找到\(\psi(\cdot)\),使风险函数最小。
采用同变的相对均方损失\(L(\sigma,d)=\left( \frac{d}{\sigma} - 1 \right)^2\),因此风险函数为:
将\(\widehat{\sigma}^*(X)=\widehat{\sigma}(X)\psi(Z)\)代入,得:
步骤2:消除未知参数\(\sigma\),将期望转化为标准分布\(P_1\)下的期望
根据同变估计的核心性质(上一节4.3.2式),同变估计满足\(\frac{\widehat{\sigma}(X)}{\sigma} = \widehat{\sigma}\left( \frac{X}{\sigma} \right)\);同时,最大不变量\(Z(X)=Z\left( \frac{X}{\sigma} \right)\)(不变量的性质)。
令\(Y = \frac{X}{\sigma}\),则\(Y \sim P_1\)(与\(\sigma\)无关),\(X=\sigma Y\),代入上式:
因此,风险函数中的期望可完全转化为对\(Y \sim P_1\)的期望\(E_1\),且与\(\sigma\)完全无关:
步骤3:应用引理4.3.4,求解最优\(\psi(Z)\)
将上式的MSE改写为引理4.3.4的标准形式:
对应引理中的\(a(Y)=-1\),\(b(Y)=\widehat{\sigma}(Y)\),\(Y\)对应引理中的\(X\),\(Z\)对应引理中的\(Y\)。
根据引理4.3.4,最优的\(\psi(Z)\)为:
将最优\(\psi(Z)\)代入同变估计的表达式,得到:
最优性得证。
2. 唯一性证明
我们需要证明:无论选择哪个初始同变估计,最终得到的最优估计都是相同的。
假设选取另一初始同变估计\(\widetilde{\sigma}(X)\),根据定理,对应的最优估计为:
根据引理4.3.3,\(\widetilde{\sigma}(X)\)和\(\widehat{\sigma}(X)\)都是同变估计,因此存在关于\(Z\)的函数\(\varphi(Z)\),使得\(\widetilde{\sigma}(X) = \widehat{\sigma}(X) \cdot \varphi(Z)\)。
将其代入\(\widetilde{\sigma}^*(X)\)的表达式:
- 分子:\(E_1\left[ \widetilde{\sigma}(X) \mid Z \right] = E_1\left[ \widehat{\sigma}(X)\varphi(Z) \mid Z \right] = \varphi(Z) \cdot E_1\left[ \widehat{\sigma}(X) \mid Z \right]\)(给定\(Z\)时,\(\varphi(Z)\)为常数,可提出条件期望)
- 分母:\(E_1\left[ \widetilde{\sigma}^2(X) \mid Z \right] = E_1\left[ \widehat{\sigma}^2(X)\varphi^2(Z) \mid Z \right] = \varphi^2(Z) \cdot E_1\left[ \widehat{\sigma}^2(X) \mid Z \right]\)
因此:
即无论选择哪个初始同变估计,最终的最优估计完全相同,唯一性得证。
五、Pitman定理的实用推论
推论1 完备充分统计量下的简化形式
推论内容:若\(T=T(X)\)为\(\sigma\)的完备充分统计量,且\(\varphi(T)\)是\(\sigma\)的同变估计,则\(\sigma\)的最优同变估计为:
推论意义:这是实际应用中最常用的形式。绝大多数常见分布都存在完备充分统计量,此时无需计算复杂的条件期望,仅需计算两个无条件期望,计算量大幅降低。
严格证明:
根据Basu定理:完备充分统计量与辅助统计量相互独立。
最大不变量\(Z\)的分布与\(\sigma\)无关,是辅助统计量,因此\(T\)与\(Z\)独立。
将初始同变估计取为\(\widehat{\sigma}(X)=\varphi(T)\),代入Pitman定理的表达式:
由于\(T\)与\(Z\)独立,条件期望等于无条件期望,即\(E_1[\varphi(T)|Z]=E_1[\varphi(T)]\),\(E_1[\varphi^2(T)|Z]=E_1[\varphi^2(T)]\),代入后即得推论1的表达式,证毕。
推论2 最简初始估计的形式
推论内容:取初始同变估计\(\widehat{\sigma}(X)=|X_1|\),则\(\sigma\)的最优同变估计为:
推论意义:当找不到完备充分统计量时,可直接选取最简单的同变估计\(|X_1|\),无需构造复杂的初始估计。
证明:\(|X_1|\)满足\(|kX_1|=k|X_1|\),是\(\sigma\)的同变估计,直接代入Pitman定理即可得证。
推论3 尺度参数幂次\(\sigma^r\)的最优同变估计
推论内容:设\(\delta(X)\)为\(\sigma^r\)的某个同变估计(满足\(\delta(kX)=k^r\delta(X)\),r次齐次性),则在相对均方损失\(L(\sigma,d)=\frac{(d-\sigma^r)^2}{\sigma^{2r}}\)下,\(\sigma^r\)的最优同变估计为:
推论意义:将Pitman定理推广到任意幂次的尺度参数估计,覆盖了方差\(\sigma^2\)(\(r=2\))、精度\(1/\sigma^2\)(\(r=-2\))等绝大多数实际应用场景。
证明:与Pitman定理的证明逻辑完全一致,仅将同变条件从一次齐次性替换为r次齐次性,损失函数替换为对应\(\sigma^r\)的相对均方损失,重复推导步骤即可得证。
六、经典例题详解
例4.3.1 指数分布的尺度参数最优同变估计
题目:设\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim \frac{1}{\sigma}e^{-x_1/\sigma}I\{x_1 \geq 0\}\)(指数分布,均值为\(\sigma\)),求\(\sigma\)的最优同变估计。
求解步骤:
- 验证尺度参数分布族:密度\(f(x,\sigma)=\frac{1}{\sigma}e^{-x/\sigma}I\{x\geq0\}\),符合\(\frac{1}{\sigma}f(x/\sigma)\)的形式,\(\sigma\)为尺度参数。
- 找完备充分统计量:指数族的完备充分统计量为\(T=\sum_{i=1}^n X_i\)。
- 验证同变性:\(T(kX)=\sum kX_i = k\sum X_i = kT(X)\),满足一次齐次性,是\(\sigma\)的同变估计。
- 用推论1计算:
当\(\sigma=1\)时,\(X_1 \sim \Gamma(1,1)\),因此\(T=\sum X_i \sim \Gamma(n,1)\)(Gamma分布)。
Gamma分布\(\Gamma(\alpha,\lambda)\)的期望\(E(X)=\frac{\alpha}{\lambda}\),\(E(X^2)=\frac{\alpha}{\lambda^2} + \left( \frac{\alpha}{\lambda} \right)^2\),代入\(\alpha=n,\lambda=1\):\[E_1(T) = n, \quad E_1(T^2) = n + n^2 = n(n+1) \]因此最优估计为:\[\widehat{\sigma}^*(X) = \frac{E_1(T)}{E_1(T^2)} \cdot T = \frac{n}{n(n+1)} T = \frac{T}{n+1} = \frac{1}{n+1}\sum_{i=1}^n X_i \]
结果对比:\(\sigma\)的最大似然估计(MLE)和无偏估计均为\(\frac{T}{n}\),二者都是同变估计,但在相对均方损失下,\(\frac{T}{n+1}\)的风险更小,更优。
例4.3.2 均匀分布\(R(0,\theta)\)的尺度参数最优同变估计
题目:设\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim R(0,\theta)\),求\(\theta\)的最优同变估计。
求解步骤:
- 验证尺度参数分布族:密度\(f(x,\theta)=\frac{1}{\theta}I\{0\leq x\leq\theta\}\),符合\(\frac{1}{\theta}f(x/\theta)\)的形式,\(\theta\)为尺度参数。
- 找完备充分统计量:次序统计量\(X_{(n)}=\max\{X_1,\dots,X_n\}\)是\(\theta\)的完备充分统计量。
- 验证同变性:\(X_{(n)}(kX)=\max\{kX_i\}=k\max\{X_i\}=kX_{(n)}(X)\),是同变估计。
- 用推论1计算:
当\(\theta=1\)时,\(X_{(n)} \sim BE(n,1)\)(Beta分布),密度为\(f(t)=n t^{n-1}I\{0\leq t\leq1\}\)。
计算期望:\[E_1(X_{(n)}) = \int_0^1 t \cdot n t^{n-1} dt = \frac{n}{n+1}, \quad E_1(X_{(n)}^2) = \int_0^1 t^2 \cdot n t^{n-1} dt = \frac{n}{n+2} \]因此最优估计为:\[\widehat{\theta}^*(X) = \frac{E_1(X_{(n)})}{E_1(X_{(n)}^2)} \cdot X_{(n)} = \frac{n/(n+1)}{n/(n+2)} X_{(n)} = \frac{n+2}{n+1}X_{(n)} \]
结果对比:\(\theta\)的MLE为\(X_{(n)}\),无偏估计为\(\frac{n+1}{n}X_{(n)}\),二者均为同变估计,但相对均方损失下,\(\frac{n+2}{n+1}X_{(n)}\)更优。
例4.3.3 正态分布\(N(0,\sigma^2)\)的方差最优同变估计
题目:设\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim N(0,\sigma^2)\),求\(\sigma^2\)的最优同变估计。
求解步骤:
- 验证尺度参数分布族:\(N(0,\sigma^2)\)的密度符合尺度参数形式,\(\sigma\)为尺度参数,待估参数为\(\sigma^2\)(\(r=2\))。
- 找完备充分统计量:\(T=\sum_{i=1}^n X_i^2\)是\(\sigma^2\)的完备充分统计量。
- 验证同变性:\(T(kX)=\sum (kX_i)^2 = k^2 \sum X_i^2 = k^2 T(X)\),满足\(r=2\)的齐次性,是\(\sigma^2\)的同变估计。
- 用推论3(结合完备充分统计量)计算:
当\(\sigma=1\)时,\(X_1^2 \sim \chi^2(1)\),因此\(T=\sum X_i^2 \sim \chi^2(n)\)(自由度为n的卡方分布)。
卡方分布\(\chi^2(\nu)\)的期望\(E(X)=\nu\),\(E(X^2)=2\nu + \nu^2\),代入\(\nu=n\):\[E_1(T)=n, \quad E_1(T^2)=2n + n^2 = n(n+2) \]因此最优估计为:\[\widehat{\sigma^2}^*(X) = \frac{E_1(T)}{E_1(T^2)} \cdot T = \frac{n}{n(n+2)} T = \frac{T}{n+2} = \frac{1}{n+2}\sum_{i=1}^n X_i^2 \]
结果对比:\(\sigma^2\)的MLE为\(\frac{T}{n}\),无偏估计为\(\frac{T}{n-1}\),二者均为同变估计,但相对均方损失下,\(\frac{T}{n+2}\)更优。
七、核心知识点归纳总结表
表1 核心概念定义表
| 概念名称 | 严格定义 | 核心性质与意义 |
|---|---|---|
| 相似不变量 | 对相似变换群\(G=\{g_k:k>0\}\),满足\(u(g_k X)=u(X), \forall k>0\)的统计量 | 分布仅与标准分布\(P_1\)有关,与\(\sigma\)无关,是辅助统计量 |
| 最大不变量 | ①是不变量;②任何不变量都可表示为它的函数 | 完全消去尺度信息,刻画所有不变量的结构,是求解同变估计的核心工具 |
| 尺度同变估计 | 对\(\sigma\)的估计满足\(\widehat{\sigma}(kX)=k\widehat{\sigma}(X)\)(一次齐次);对\(\sigma^r\)满足\(\widehat{\sigma^r}(kX)=k^r\widehat{\sigma^r}(X)\)(r次齐次) | 样本尺度缩放时,估计量做对应变换,符合尺度参数的物理意义 |
| 同变均方损失 | 对\(\sigma\):\(L(\sigma,d)=\frac{(d-\sigma)^2}{\sigma^2}\);对\(\sigma^r\):\(L(\sigma,d)=\frac{(d-\sigma^r)^2}{\sigma^{2r}}\) | 变换不变性,仅与相对误差有关,适配尺度参数估计 |
表2 核心引理汇总表
| 引理编号 | 核心结论 | 核心作用 |
|---|---|---|
| 4.3.1 | 两个同变估计的比值是不变量;同变估计×不变量仍是同变估计 | 建立同变估计与不变量的一一对应关系 |
| 4.3.2 | 所有相似不变量都可表示为最大不变量的函数,分布与\(\sigma\)无关 | 刻画不变量的结构,消除未知参数\(\sigma\)的影响 |
| 4.3.3 | 任一同变估计都可表示为「固定同变估计×最大不变量的函数」 | 给出所有同变估计的统一形式,将优化问题降维 |
| 4.3.4 | 给出带条件期望的均方误差的最小值点表达式 | Pitman定理证明的核心数学工具 |
表3 核心定理与推论汇总表
| 定理/推论 | 核心表达式 | 适用场景 | 核心优势 |
|---|---|---|---|
| Pitman定理 | \(\widehat{\sigma}^*(X) = \frac{E_1[\widehat{\sigma}(X)|Z]}{E_1[\widehat{\sigma}^2(X)|Z]} \cdot \widehat{\sigma}(X)\) | 任意尺度参数分布族的\(\sigma\)估计 | 显式表达式,解唯一,初始估计可任意选择 |
| 推论1(完备充分统计量简化) | \(\widehat{\sigma}^*(X) = \frac{E_1[\varphi(T)]}{E_1[\varphi^2(T)]} \cdot \varphi(T)\) | 存在完备充分统计量的分布(绝大多数常见分布) | 无需计算条件期望,仅需两个无条件期望,计算量极低 |
| 推论3(\(\sigma^r\)的推广) | \(\delta^*(X) = \frac{E_1[\delta(X)|Z]}{E_1[\delta^2(X)|Z]} \cdot \delta(X)\) | 尺度参数的幂次估计(方差、精度等) | 覆盖几乎所有实际应用场景 |
表4 经典分布最优同变估计结果汇总表
| 分布类型 | 待估参数 | 完备充分统计量 | 最优同变估计 | 对比:MLE/无偏估计 |
|---|---|---|---|---|
| 指数分布\(Exp(1/\sigma)\) | \(\sigma\) | \(T=\sum_{i=1}^n X_i\) | \(\widehat{\sigma}^*=\frac{1}{n+1}\sum X_i\) | MLE/无偏估计:\(\frac{1}{n}\sum X_i\),风险更高 |
| 均匀分布\(R(0,\theta)\) | \(\theta\) | \(T=X_{(n)}\) | \(\widehat{\theta}^*=\frac{n+2}{n+1}X_{(n)}\) | MLE:\(X_{(n)}\),无偏估计:\(\frac{n+1}{n}X_{(n)}\),风险更高 |
| 正态分布\(N(0,\sigma^2)\) | \(\sigma^2\) | \(T=\sum_{i=1}^n X_i^2\) | \(\widehat{\sigma^2}^*=\frac{1}{n+2}\sum X_i^2\) | MLE:\(\frac{1}{n}\sum X_i^2\),无偏估计:\(\frac{1}{n-1}\sum X_i^2\),风险更高 |
| 瑞利分布 | \(\sigma^2\) | \(T=\sum_{i=1}^n X_i^2\) | \(\widehat{\sigma^2}^*=\frac{1}{n+1}\sum X_i^2\) | MLE/无偏估计:\(\frac{1}{n}\sum X_i^2\),风险更高 |
八、资深研究员的教学总结
- 核心逻辑:整个章节的本质是利用分布族的对称性(尺度不变性),将带未知参数的无穷维估计问题,转化为无参数的低维优化问题,最终通过最小二乘思想得到显式最优解。
- 同变性的直观意义:尺度参数的物理意义是“度量单位”,同变性要求“单位从米换成厘米时,估计值也乘以100”,这是估计量合理性的基本要求。
- 偏差-方差权衡:最优同变估计牺牲了无偏性,换来了更小的整体均方误差。例如正态方差的最优同变估计\(\frac{T}{n+2}\),虽然有偏,但在相对均方损失下,比无偏估计\(\frac{T}{n-1}\)表现更好,这是统计决策的经典结论。
- 实用技巧:实际应用中,90%以上的场景都可以通过「找完备充分统计量→验证同变性→用推论1计算」三步完成最优同变估计的求解,无需复杂的条件期望计算。
Pitman积分公式 全知识点详解与严格推导
承接上一节尺度参数最优同变估计的Pitman定理,本节的核心目标是将最优同变估计的条件期望形式,转化为仅依赖样本密度的积分显式形式——Pitman积分公式,彻底解决条件期望计算复杂的问题,让最优同变估计的求解无需再推导最大不变量的条件分布,仅通过样本密度对尺度参数的积分即可完成,是尺度参数估计中最具实用价值的结论之一。
我将以60余年数理统计教学与科研的经验,从核心引理出发,完成全流程的严格推导,拆解每一步变换的逻辑,最终总结公式的应用方法与核心价值。
一、本节的核心逻辑铺垫
上一节的推论2给出了尺度参数\(\sigma\)的最优同变估计的最简形式:
其中\(E_1\)表示对标准分布\(P_1\)(\(\sigma=1\))取期望,\(Z=(Z_1,Z_2,\dots,Z_n)^T\)是相似变换群的最大不变量,定义为:
该式理论上完美,但实际计算存在核心障碍:要计算条件期望\(E_1(|X_1||Z)\)和\(E_1(X_1^2|Z)\),必须先求出给定最大不变量\(Z\)时,\(X_1\)的条件分布\(p(x_1|z_1,z_2,\dots,z_n)\)。本节的两个核心引理,就是为了求解这个条件分布,为最终的Pitman积分公式奠定基础。
二、核心引理的详细讲解与严格证明
引理4.3.5 给定\(Z_2,\dots,Z_n\)时\(X_1\)的条件分布
引理内容:假设\(P(X_1=0)=0\)(即\(X_1\)几乎处处不为0),则当\(\sigma=1\)时,\(X_1\)给定\(Z_2,\dots,Z_n\)的条件分布为:
其中\(f(x_1,\dots,x_n)\)是标准分布\(P_1\)的概率密度函数。
引理意义:给出了\(X_1\)关于部分最大不变量\(Z_2,\dots,Z_n\)的条件分布,是后续计算条件期望的核心基础,其推导的关键是n维随机变量的线性变换与雅可比行列式计算。
引理4.3.5的严格证明
我们的目标是求\((X_1,Z_2,\dots,Z_n)\)的联合分布,再通过条件分布公式得到结果,分为3个核心步骤:
步骤1:构造可逆变换,计算雅可比行列式
我们构造从\((X_1,X_2,\dots,X_n)\)到\((Y_1,Y_2,\dots,Y_n)\)的一一变换:
其逆变换为:
接下来计算该逆变换的雅可比行列式:
雅可比矩阵\(J\)是n阶方阵,其元素为\(J_{ij} = \frac{\partial X_i}{\partial Y_j}\),具体形式为:
这是一个下三角矩阵,其行列式等于所有对角元的乘积。对角元依次为\(1, Y_1, Y_1, \dots, Y_1\)(共\(n-1\)个\(Y_1\)),因此:
雅可比行列式的绝对值为\(|J| = |Y_1|^{n-1}\)。
步骤2:推导\((Y_1,Y_2,\dots,Y_n)\)的联合密度
已知当\(\sigma=1\)时,\((X_1,\dots,X_n)\)的联合密度为\(f(x_1,x_2,\dots,x_n)\)。根据随机变量变换的密度公式,变换后的\((Y_1,\dots,Y_n)\)的联合密度为:
代入\(|J|=|y_1|^{n-1}\),得:
而\(Y_1=X_1\),\(Y_2=Z_2,\dots,Y_n=Z_n\),因此\((X_1,Z_2,\dots,Z_n)\)的联合密度为:
步骤3:推导条件分布
根据条件分布的定义,\(p(x_1|z_2,\dots,z_n) = \frac{p(x_1,z_2,\dots,z_n)}{p(z_2,\dots,z_n)}\),其中边缘密度\(p(z_2,\dots,z_n)\)是联合密度对\(x_1\)的积分:
将联合密度和边缘密度代入条件分布公式,即可得到引理4.3.5的结果,证毕。
引理4.3.6 给定完整最大不变量\(Z=(Z_1,Z_2,\dots,Z_n)\)时\(X_1\)的条件分布
引理内容:设\(p_z = P(X_1>0 | Z_2=z_2,\dots,Z_n=z_n)\),则给定\(Z=(z_1,z_2,\dots,z_n)\)时,\(X_1\)的条件分布为:
其中\(I\{\cdot\}\)为示性函数,\(Z_1=X_1/|X_1|\),仅取\(\pm1\)两个值:\(Z_1=1\)等价于\(X_1>0\),\(Z_1=-1\)等价于\(X_1<0\)。
引理意义:处理了最大不变量中离散分量\(Z_1\)的影响,将完整的条件分布转化为引理4.3.5中连续条件分布的截断形式,为条件期望的计算扫清了最后障碍。
引理4.3.6的严格证明
我们仅证明\(z_1=1\)(即\(X_1>0\))的情形,\(z_1=-1\)的情形完全对称。
根据条件分布函数的定义,给定\(Z_1=1,Z_2=z_2,\dots,Z_n=z_n\)时,\(X_1\)的条件分布函数为:
根据条件概率的定义,将\(Z_1=1\)替换为\(X_1>0\),得:
分母就是\(p_z\),分子是\(X_1\)在\((0,x_1]\)上的条件概率积分,因此:
对分布函数关于\(x_1\)求导,即可得到条件密度:
\(z_1=-1\)的情形同理可证,引理4.3.6得证。
三、核心定理:Pitman积分公式(尺度参数最优同变估计)
定理4.3.2 Pitman积分公式
定理内容:设\(X=(X_1,\dots,X_n)^T\)服从尺度参数分布族,密度为:
则在相对均方损失下,\(\sigma\)的最优同变估计可表示为:
定理意义:这是尺度参数最优同变估计的终极实用结论。它彻底摆脱了最大不变量、条件分布、条件期望的复杂计算,仅需将样本密度\(p(X,\sigma)\)代入关于\(\sigma\)的积分,即可直接得到最优同变估计,计算过程完全标准化,适用于所有尺度参数分布族。
定理4.3.2的严格证明
我们的证明思路是:从最优同变估计的条件期望形式出发,代入两个引理的条件分布,通过变量替换将条件期望转化为关于\(\sigma\)的积分,最终得到Pitman积分公式。分为4个核心步骤:
步骤1:写出条件期望的积分形式
根据上一节的推论2,\(\sigma\)的最优同变估计为:
我们先处理\(Z_1=1\)(即\(X_1>0\))的情形,此时\(|X_1|=X_1\),\(Z_1=1\),根据条件期望的定义,\(E_1(|X_1||Z=z) = \int_{-\infty}^{\infty} |x_1| p(x_1|z_1,z_2,\dots,z_n) dx_1\)。
代入引理4.3.6的条件分布(\(z_1=1\),\(x_1>0\)),得:
再代入引理4.3.5的\(p(x_1|z_2,\dots,z_n)\),得:
由于\(x_1>0\),\(|x_1|=x_1\),因此\(x_1 \cdot |x_1|^{n-1} = x_1^n\),化简得:
同理,计算\(E_1(X_1^2|Z=z)\),此时\(x_1^2 \cdot |x_1|^{n-1} = x_1^{n+1}\),得:
步骤2:约分化简,得到条件期望的比值
将(1)式和(2)式相除,会发现\(p_z^{-1}\)和分母的积分项完全约去,得到:
这里我们将积分哑变量\(x_1\)替换为\(u\),避免和样本\(X\)混淆。
步骤3:核心变量替换,将积分转化为关于\(\sigma\)的形式
这是证明中最关键的一步,我们的目标是将\(f(u, u Z_2, \dots, u Z_n)\)转化为仅关于样本\(X\)的形式。
首先,根据\(Z_i\)的定义,\(Z_i = \frac{X_i}{X_1} (i≥2)\),因此\(u Z_i = u \cdot \frac{X_i}{X_1}\)。我们做变量替换:
其中\(u>0\),\(X_1>0\)(\(Z_1=1\)的情形),因此\(t>0\)。
对\(u\)求微分,得:
积分上下限:当\(u=0\)时,\(t \to +\infty\);当\(u \to +\infty\)时,\(t=0\),因此积分上下限交换后,负号抵消。
首先化简\(f\)的自变量:
接下来,将变量替换代入(4.3.11)式的分子:
交换积分上下限,消去负号:
同理,代入(4.3.11)式的分母:
步骤4:约分化简,得到Pitman积分公式
将分子和分母代入(4.3.11)式,\(X_1\)的幂次约去,得:
将该比值代入最优同变估计的表达式,此时\(|X_1|=X_1\),因此\(X_1\)和\(1/X_1\)完全约去,得:
注意到积分变量\(t\)是哑变量,我们将其替换为\(\sigma\),同时结合尺度参数分布族的密度\(p(X,\sigma) = \frac{1}{\sigma^n} f\left( \frac{X}{\sigma} \right)\),即\(f\left( \frac{X}{\sigma} \right) = \sigma^n p(X,\sigma)\),代入上式:
- 分子:\(\int_{0}^{\infty} \sigma^{-(n+2)} \cdot \sigma^n p(X,\sigma) d\sigma = \int_{0}^{\infty} \sigma^{-2} p(X,\sigma) d\sigma\)
- 分母:\(\int_{0}^{\infty} \sigma^{-(n+3)} \cdot \sigma^n p(X,\sigma) d\sigma = \int_{0}^{\infty} \sigma^{-3} p(X,\sigma) d\sigma\)
因此得到:
对于\(Z_1=-1\)(即\(X_1<0\))的情形,\(|X_1|=-X_1\),重复上述推导过程,最终会得到完全相同的公式,因此Pitman积分公式对所有样本都成立,定理4.3.2得证。
四、Pitman积分公式的推广:\(\sigma^r\)的最优同变估计
推论:\(\sigma^r\)的Pitman积分公式
推论内容:对于尺度参数的幂次\(\sigma^r\)(\(r\)为任意实数),在相对均方损失下,其最优同变估计可表示为:
推论意义:将Pitman积分公式推广到任意幂次的尺度参数估计,覆盖了方差\(\sigma^2\)(\(r=2\))、精度\(1/\sigma^2\)(\(r=-2\))、标准差\(\sigma\)(\(r=1\))等所有实际应用场景,是最通用的形式。
推论的证明思路
我们取\(\sigma^r\)的一个初始同变估计为\(|X_1|^r\),根据上一节的推论3,\(\sigma^r\)的最优同变估计为:
重复定理4.3.2的推导过程,仅需将积分中的\(u^n\)替换为\(u^{n+r-1}\),\(u^{n+1}\)替换为\(u^{n+2r-1}\),最终通过相同的变量替换,即可得到上述推广公式,推导过程完全一致,此处不再赘述。
五、Pitman积分公式的应用实例
我们用经典例题验证Pitman积分公式的便利性,对比之前的方法,体会其标准化计算的优势。
例1:指数分布\(Exp(1/\sigma)\)的\(\sigma\)最优同变估计
指数分布的样本联合密度为:
代入Pitman积分公式(\(r=1\)):
- 分子:\(\int_{0}^{\infty} \sigma^{-2} \cdot \frac{1}{\sigma^n} e^{-\frac{T}{\sigma}} d\sigma = \int_{0}^{\infty} \sigma^{-(n+2)} e^{-\frac{T}{\sigma}} d\sigma\)
- 分母:\(\int_{0}^{\infty} \sigma^{-3} \cdot \frac{1}{\sigma^n} e^{-\frac{T}{\sigma}} d\sigma = \int_{0}^{\infty} \sigma^{-(n+3)} e^{-\frac{T}{\sigma}} d\sigma\)
做变量替换\(u = \frac{T}{\sigma}\),即\(\sigma = \frac{T}{u}\),\(d\sigma = -\frac{T}{u^2} du\),代入计算:
- 分子:\(T^{-(n+1)} \int_{0}^{\infty} u^{n} e^{-u} du = T^{-(n+1)} \Gamma(n+1)\)
- 分母:\(T^{-(n+2)} \int_{0}^{\infty} u^{n+1} e^{-u} du = T^{-(n+2)} \Gamma(n+2)\)
因此最优估计为:
和之前用完备充分统计量得到的结果完全一致,且无需寻找充分统计量,计算过程完全标准化。
例2:正态分布\(N(0,\sigma^2)\)的\(\sigma^2\)最优同变估计
正态分布\(N(0,\sigma^2)\)的样本联合密度为:
估计\(\sigma^2\)即\(r=2\),代入推广的Pitman积分公式:
- 分子:\(\int_{0}^{\infty} \sigma^{-(2+1)} p(X,\sigma) d\sigma = \frac{1}{(2\pi)^{n/2}} \int_{0}^{\infty} \sigma^{-(n+3)} e^{-\frac{T}{2\sigma^2}} d\sigma\)
- 分母:\(\int_{0}^{\infty} \sigma^{-(4+1)} p(X,\sigma) d\sigma = \frac{1}{(2\pi)^{n/2}} \int_{0}^{\infty} \sigma^{-(n+5)} e^{-\frac{T}{2\sigma^2}} d\sigma\)
做变量替换\(u = \frac{T}{2\sigma^2}\),计算后可得:
和之前的结论完全一致,再次验证了公式的有效性。
六、核心知识点归纳总结表
表1 核心引理汇总
| 引理编号 | 核心结论 | 核心作用 |
|---|---|---|
| 4.3.5 | 给出\(X_1|Z_2,\dots,Z_n\)的条件分布,核心是n维变换的雅可比行列式计算 | 解决连续型最大不变量对应的条件分布求解问题 |
| 4.3.6 | 给出\(X_1|Z_1,Z_2,\dots,Z_n\)的条件分布,处理离散分量\(Z_1=\pm1\)的截断效应 | 得到完整最大不变量对应的条件分布,为条件期望计算奠定基础 |
表2 核心定理与推论汇总
| 定理/推论 | 核心公式 | 适用场景 | 核心优势 |
|---|---|---|---|
| Pitman积分公式(\(\sigma\)) | \(\widehat{\sigma}^*(X) = \frac{\int_{0}^{\infty} \sigma^{-2} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-3} p(X,\sigma) d\sigma}\) | 尺度参数\(\sigma\)的最优同变估计 | 无需推导最大不变量、条件分布,仅需样本密度积分即可求解 |
| 推广公式(\(\sigma^r\)) | \(\delta^*(X) = \frac{\int_{0}^{\infty} \sigma^{-(r+1)} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-(2r+1)} p(X,\sigma) d\sigma}\) | 任意幂次尺度参数\(\sigma^r\)的最优同变估计 | 通用形式,覆盖方差、精度、标准差等所有实际场景 |
表3 关键变换与技巧汇总
| 变换/技巧 | 应用场景 | 核心作用 |
|---|---|---|
| n维线性变换与雅可比行列式 | 引理4.3.5的联合分布推导 | 将\((X_1,\dots,X_n)\)变换为\((X_1,Z_2,\dots,Z_n)\),得到联合密度 |
| 变量替换\(u=X_1/t\) | Pitman积分公式的核心推导 | 将积分中的\(f(u,uZ_2,\dots,uZ_n)\)转化为\(f(X/t)\),消去最大不变量 |
| 变量替换\(u=T/\sigma\) | 积分计算 | 将指数型积分转化为Gamma函数,快速得到积分结果 |
七、资深研究员的教学总结
- Pitman积分公式的本质:它是尺度参数分布族的对称性与贝叶斯思想结合的产物,等价于取\(\sigma\)的无信息先验\(\pi(\sigma)=1/\sigma\)时,\(\sigma\)的后验期望,这也是其形式简洁、计算标准化的深层原因。
- 计算的标准化优势:无论是什么尺度参数分布,求解最优同变估计的步骤完全固定:①写出样本联合密度\(p(X,\sigma)\);②代入Pitman积分公式;③通过变量替换计算积分。无需针对不同分布寻找充分统计量,大幅降低了学习和应用的门槛。
- 与Pitman定理的关系:Pitman积分公式是上一节Pitman定理的显式化,二者理论等价,前者适合实际计算,后者适合理论推导,互为补充。
- 应用注意事项:使用公式时需保证分子、分母的积分收敛,绝大多数常见的尺度参数分布(指数、正态、均匀、瑞利等)都满足该条件。
尺度参数最优同变估计例题 全流程详解
我们将基于上一节推导的Pitman积分公式,完整演示3个典型分布的最优同变估计求解过程,拆解每一步的逻辑细节、计算技巧与结果意义。
首先回顾核心工具:对于尺度参数\(\sigma\)(例题中记为\(\theta\)),在相对均方损失下,其最优同变估计的Pitman积分公式为:
其中\(p(X,\sigma)\)为样本联合概率密度,该公式的核心优势是无需推导最大不变量、条件分布,仅通过密度积分即可标准化求解最优估计。
例4.3.5 均匀分布\(R(0,\theta)\)的\(\theta\)最优同变估计
步骤1:验证尺度参数分布族
均匀分布\(X_1 \sim R(0,\theta)\)的单样本密度为:
其中\(f(t)=I\{0 \leq t \leq 1\}\),完全符合尺度参数分布族的标准形式,\(\theta\)为尺度参数。
步骤2:写出样本联合密度
设\(X_1,\dots,X_n\)独立同分布,记次序统计量\(X_{(n)} = \max\{X_1,\dots,X_n\}\)(样本最大值)、\(X_{(1)} = \min\{X_1,\dots,X_n\}\)(样本最小值),则联合密度为:
核心逻辑:所有样本落在\([0,\theta]\)内,等价于「样本最小值非负、样本最大值不超过\(\theta\)」,这是后续确定积分上下限的关键。
步骤3:代入Pitman公式,化简表达式
将联合密度代入(4.3.10)式,分子分母的公共常数项\(\frac{1}{\theta^n}\)可直接约去:
示性函数处理:\(I\{X_{(n)} \leq \theta\}\)表示仅当\(\theta \geq X_{(n)}\)时,被积函数非零,因此积分上下限从\([0,+\infty)\)简化为\([X_{(n)}, +\infty)\):
步骤4:计算幂函数积分
对于无穷区间的幂函数积分,有通用公式:\(\int_{a}^{\infty} x^k dx = \frac{a^{k+1}}{-(k+1)}\)(要求\(k < -1\),此处\(-(n+2) < -1\)、\(-(n+3) < -1\),积分收敛)。
- 分子积分:\(\int_{X_{(n)}}^{\infty} \theta^{-(n+2)} d\theta = \frac{X_{(n)}^{-(n+1)}}{n+1}\)
- 分母积分:\(\int_{X_{(n)}}^{\infty} \theta^{-(n+3)} d\theta = \frac{X_{(n)}^{-(n+2)}}{n+2}\)
步骤5:化简得到最终结果
分子分母相除,\(X_{(n)}\)的幂次约去,得到:
结果解读
- \(\theta\)的最大似然估计(MLE)为\(X_{(n)}\),无偏估计为\(\frac{n+1}{n}X_{(n)}\),二者均为同变估计;
- 在相对均方损失下,我们得到的最优同变估计\(\frac{n+2}{n+1}X_{(n)}\)风险更小,优于MLE和无偏估计。
例4.3.6 拉普拉斯(Laplace)分布的\(\sigma\)最优同变估计
步骤1:验证尺度参数分布族
拉普拉斯分布(双指数分布)的单样本密度为:
其中\(f(t) = \frac{1}{2}e^{-|t|}\),符合尺度参数分布族的标准形式,\(\sigma\)为尺度参数。
步骤2:写出样本联合密度
设\(X_1,\dots,X_n\)独立同分布,记\(A = \sum_{i=1}^n |X_i|\)(样本绝对值和),则联合密度为:
步骤3:代入Pitman公式,化简表达式
将联合密度代入(4.3.10)式,分子分母的公共常数项\(\frac{1}{2^n}\)可直接约去:
步骤4:变量替换,转化为Gamma函数积分
对于形如\(\int_{0}^{\infty} \sigma^k e^{-\frac{c}{\sigma}} d\sigma\)的积分,标准处理方法是做倒数变量替换:令\(t = \frac{1}{\sigma}\),即\(\sigma = \frac{1}{t}\),则\(d\sigma = -\frac{1}{t^2} dt\),积分上下限从\(\sigma:0\to\infty\)变为\(t:\infty\to0\),交换上下限消去负号。
- 分子积分替换:\[\int_{0}^{\infty} \sigma^{-(n+2)} e^{-\frac{A}{\sigma}} d\sigma = \int_{0}^{\infty} t^{n+2} e^{-A t} \cdot \frac{1}{t^2} dt = \int_{0}^{\infty} t^n e^{-A t} dt \]
- 分母积分替换:\[\int_{0}^{\infty} \sigma^{-(n+3)} e^{-\frac{A}{\sigma}} d\sigma = \int_{0}^{\infty} t^{n+3} e^{-A t} \cdot \frac{1}{t^2} dt = \int_{0}^{\infty} t^{n+1} e^{-A t} dt \]
此时积分变为Gamma函数的标准形式:\(\int_{0}^{\infty} t^{k} e^{-c t} dt = \frac{\Gamma(k+1)}{c^{k+1}}\),其中Gamma函数满足核心性质\(\Gamma(k+1)=k\Gamma(k)\),对正整数\(n\)有\(\Gamma(n+1)=n!\)。
- 分子积分结果:\(\int_{0}^{\infty} t^n e^{-A t} dt = \frac{\Gamma(n+1)}{A^{n+1}}\)
- 分母积分结果:\(\int_{0}^{\infty} t^{n+1} e^{-A t} dt = \frac{\Gamma(n+2)}{A^{n+2}}\)
步骤5:化简得到最终结果
分子分母相除,\(A\)的幂次约去,结合Gamma函数性质\(\Gamma(n+2)=(n+1)\Gamma(n+1)\),得到:
结果解读
- 拉普拉斯分布中,\(\sigma\)的MLE和无偏估计均为\(\frac{1}{n}\sum_{i=1}^n |X_i|\);
- 最优同变估计为\(\frac{1}{n+1}\sum_{i=1}^n |X_i|\),在相对均方损失下风险更小,优于MLE和无偏估计。
例4.3.7 Pareto型分布的\(\theta\)最优同变估计
步骤1:验证尺度参数分布族
单样本密度为\(p(x_1,\theta) = 2\theta^2 x_1^{-3} I\{x_1 \geq \theta > 0\}\),将其改写为尺度参数标准形式:
其中\(f(t)=2t^{-3}I\{t\geq1\}\),符合尺度参数分布族的标准形式,\(\theta\)为尺度参数。
步骤2:写出样本联合密度
设\(X_1,\dots,X_n\)独立同分布,记次序统计量\(X_{(1)} = \min\{X_1,\dots,X_n\}\)(样本最小值),则联合密度为:
核心逻辑:所有样本大于等于\(\theta\),等价于「样本最小值\(X_{(1)} \geq \theta\)」,这是确定积分上下限的关键。
步骤3:代入Pitman公式,化简表达式
将联合密度代入(4.3.10)式,分子分母的公共常数项\(2^n \prod_{i=1}^n X_i^{-3}\)可直接约去:
示性函数处理:\(I\{X_{(1)} \geq \theta\}\)表示仅当\(\theta \leq X_{(1)}\)时,被积函数非零,因此积分上下限从\([0,+\infty)\)简化为\([0, X_{(1)}]\):
步骤4:计算幂函数积分
对于有限区间的幂函数积分,通用公式为:\(\int_{0}^{a} x^k dx = \frac{a^{k+1}}{k+1}\)(要求\(k > -1\),此处\(2n-2 > -1\)、\(2n-3 > -1\),\(n\geq1\)时积分收敛)。
- 分子积分:\(\int_{0}^{X_{(1)}} \theta^{2n-2} d\theta = \frac{X_{(1)}^{2n-1}}{2n-1}\)
- 分母积分:\(\int_{0}^{X_{(1)}} \theta^{2n-3} d\theta = \frac{X_{(1)}^{2n-2}}{2n-2}\)
步骤5:化简得到最终结果
分子分母相除,\(X_{(1)}\)的幂次约去,得到:
结果解读
- 该分布中\(\theta\)的MLE为\(X_{(1)}\),无偏估计为\(\frac{2n-1}{2n-2}X_{(1)}\);
- 最优同变估计为\(\frac{2n-2}{2n-1}X_{(1)}\),在相对均方损失下风险更小,优于MLE和无偏估计。
核心知识点归纳总结表
| 例题编号 | 分布类型 | 待估尺度参数 | 联合密度核心项 | 最优同变估计 | 最大似然估计(MLE) | 无偏估计 |
|---|---|---|---|---|---|---|
| 4.3.5 | 均匀分布\(R(0,\theta)\) | \(\theta\) | \(\frac{1}{\theta^n}I\{X_{(n)}\leq\theta\}\) | \(\frac{n+2}{n+1}X_{(n)}\) | \(X_{(n)}\) | \(\frac{n+1}{n}X_{(n)}\) |
| 4.3.6 | 拉普拉斯分布\(\frac{1}{2\sigma}e^{-|x|/\sigma}\) | \(\sigma\) | \(\frac{1}{\sigma^n}e^{-\frac{1}{\sigma}\sum|X_i|}\) | \(\frac{1}{n+1}\sum_{i=1}^n |X_i|\) | \(\frac{1}{n}\sum_{i=1}^n |X_i|\) | \(\frac{1}{n}\sum_{i=1}^n |X_i|\) |
| 4.3.7 | Pareto型分布\(2\theta^2x^{-3}I\{x\geq\theta\}\) | \(\theta\) | \(\theta^{2n}I\{X_{(1)}\geq\theta\}\) | \(\frac{2n-2}{2n-1}X_{(1)}\) | \(X_{(1)}\) | \(\frac{2n-1}{2n-2}X_{(1)}\) |
教学总结
- 标准化求解流程:所有尺度参数分布族的最优同变估计,都遵循「验证尺度分布→写联合密度→代入Pitman公式→处理示性函数定积分限→计算积分→化简结果」的固定流程,无需针对不同分布设计特殊方法,这是Pitman积分公式的核心价值。
- 示性函数是关键细节:带区间约束的分布(均匀、Pareto),核心是通过次序统计量将示性函数转化为积分的有效区间,这是初学者最容易出错的环节。
- 积分计算通用技巧:指数型积分(拉普拉斯、指数、正态)用倒数变量替换转化为Gamma函数,幂函数型积分(均匀、Pareto)直接用幂函数积分公式,覆盖了绝大多数常见分布的计算场景。
- 最优性的本质:最优同变估计通过牺牲无偏性,换来了相对均方损失下的最小风险,是统计决策中「偏差-方差权衡」的经典体现;若实际应用关注相对误差而非绝对无偏,最优同变估计是更优的选择。
posted on 2026-02-25 23:35 Indian_Mysore 阅读(0) 评论(0) 收藏 举报
浙公网安备 33010602011771号