夫君子之行，静以修身，俭以养德；非澹泊无以明志，非宁静无以致远。夫学须静也，才须学也；非学无以广才，非志无以成学。怠慢则不能励精，险躁则不能冶性。年与时驰，意与岁去，遂成枯落，多不接世。悲守穷庐，将复何及！

4.3.1 尺度参数分布族的相似变换群与同变估计

尺度参数分布族的相似变换群与同变估计详细讲解与推导

我将以多年数理统计研究与教学的经验，从基础定义出发，逐步完成全流程推导，拆解核心逻辑，最后进行结构化归纳总结。

一、前置基础：尺度参数分布族的定义与核心性质

1. 尺度参数分布族的定义

对于n维随机变量\(X\)，若其概率密度函数可表示为：

\[p(x,\sigma) = \frac{1}{\sigma^n} f\left( \frac{x_1}{\sigma}, \frac{x_2}{\sigma}, \dots, \frac{x_n}{\sigma} \right) = \frac{1}{\sigma^n} f\left( \frac{x}{\sigma} \right) \]

其中参数\(\sigma \in \Theta = (0, +\infty)\)，则称该分布族为尺度参数分布族，\(\sigma\)为尺度参数。

当\(\sigma=1\)时，\(X \sim P_1\)，密度为\(f(x)\)，称为该分布族的标准分布。
典型例子：正态分布\(N(0,\sigma^2)\)、均匀分布\(R(0,\sigma)\)，均严格符合上述形式。

2. 核心性质的严格证明

性质：若\(X \sim P_\sigma\)，则\(Y = X/\sigma \sim P_1\)（与\(\sigma\)无关的标准分布）；反之，若\(Y \sim P_1\)，则\(X = \sigma Y \sim P_\sigma\)。

证明：
利用n维随机变量线性变换的密度公式：若\(Y = g(X)\)，则\(p_Y(y) = p_X(g^{-1}(y)) \cdot |J|\)，其中\(|J|\)为逆变换的雅可比行列式。

正向推导：\(Y = X/\sigma\)，逆变换为\(X = \sigma Y\)，雅可比矩阵为对角矩阵，对角元均为\(\sigma\)，故\(|J| = \sigma^n\)。
代入\(X\)的密度：

\[p_Y(y) = p_X(\sigma y) \cdot \sigma^n = \frac{1}{\sigma^n}f\left( \frac{\sigma y}{\sigma} \right) \cdot \sigma^n = f(y) \]
即\(Y \sim P_1\)，与\(\sigma\)完全无关。
反向推导：\(X = \sigma Y\)，逆变换为\(Y = X/\sigma\)，雅可比行列式\(|J| = 1/\sigma^n\)。
代入\(Y\)的密度\(f(y)\)：

\[p_X(x) = f\left( \frac{x}{\sigma} \right) \cdot \frac{1}{\sigma^n} = \frac{1}{\sigma^n}f\left( \frac{x}{\sigma} \right) \]
即\(X \sim P_\sigma\)，证毕。

该性质是整个同变估计体系的核心基石：尺度参数的影响仅体现为样本的尺度缩放，可通过除以\(\sigma\)完全消除，转化为无未知参数的标准分布问题。

二、相似变换群的定义与不变分布族证明

同变估计的核心思想是：样本做尺度变换时，参数、估计量、损失函数应做对应变换，保证估计的“合理性”与“不变性”。我们需要依次定义样本空间、参数空间、决策空间上的变换群。

1. 样本空间的相似变换群

给定样本空间\(\mathcal{X}\)（n维随机变量的取值空间），定义相似变换集合：

\[G = \{g_k: k>0\}, \quad g_k x = kx \quad (\text{即} \ g_k x_i = kx_i, \ i=1,2,\dots,n) \]

\(g_k\)的含义是对样本的每个分量做尺度为\(k\)的缩放。

严格证明\(G\)是一个群（满足群的四大公理）：

封闭性：对任意\(g_{k_1}, g_{k_2} \in G\)，\(g_{k_1} \circ g_{k_2}(x) = g_{k_1}(k_2 x) = k_1 k_2 x = g_{k_1 k_2}(x)\)，\(k_1 k_2>0\)，故\(g_{k_1 k_2} \in G\)。
结合律：变换的复合天然满足结合律，\((g_{k_1} \circ g_{k_2}) \circ g_{k_3} = g_{k_1} \circ (g_{k_2} \circ g_{k_3})\)。
单位元：取\(k=1\)，\(g_1 x = x\)为恒等变换，属于\(G\)。
逆元：对任意\(g_k \in G\)，取\(k'=1/k>0\)，\(g_{k'} \circ g_k(x) = x\)，故\(g_{k'}\)是\(g_k\)的逆元，属于\(G\)。

因此\(G\)是样本空间上的相似变换群。

2. 参数空间的导出群与不变分布族证明

我们需要推导：样本做变换\(g_k X = kX\)后，分布的参数如何变化，以此定义参数空间的导出群。

步骤1：推导变换后样本的分布

已知\(X \sim P_\sigma\)，密度为\(\frac{1}{\sigma^n}f(x/\sigma)\)，令\(Y = g_k X = kX\)，逆变换为\(X = Y/k\)，雅可比行列式\(|J| = 1/k^n\)。

则\(Y\)的密度为：

\[p_Y(y) = p_X\left( \frac{y}{k} \right) \cdot \frac{1}{k^n} = \frac{1}{\sigma^n}f\left( \frac{y}{k\sigma} \right) \cdot \frac{1}{k^n} = \frac{1}{(k\sigma)^n}f\left( \frac{y}{k\sigma} \right) \]

对比尺度参数分布族的定义，\(Y\)的密度恰好是\(P_{k\sigma}\)的密度，即\(Y \sim P_{k\sigma}\)，参数从\(\sigma\)变为\(\sigma' = k\sigma\)。

步骤2：定义参数空间的导出群

参数空间\(\Theta=(0,+\infty)\)上的变换集合：

\[\bar{G} = \{\bar{g}_k: k>0\}, \quad \bar{g}_k \sigma = k\sigma \]

与样本变换群\(G\)的证明完全一致，可证\(\bar{G}\)是一个群，称为样本变换群\(G\)在参数空间上的导出群。

步骤3：不变分布族的结论

定义：若对任意\(g_k \in G\)，\(X \sim P_\sigma\)可推出\(g_k X \sim P_{\bar{g}_k \sigma}\)（变换后的分布仍属于原分布族），则称该分布族为变换群\(G\)下的不变分布族。

我们的推导已严格证明：尺度参数分布族是相似变换群\(G\)下的不变分布族。

三、决策空间的导出群与同变估计条件

我们的目标是估计尺度参数\(\sigma\)（或其幂次\(\sigma^r\)），需要定义决策空间（估计量的取值空间）的导出群，并给出同变估计的约束条件。

同变估计的核心准则：当样本做变换\(g_k x\)、参数做变换\(\bar{g}_k \sigma\)时，估计量（决策）必须做对应的变换，即：

\[\delta(g_k x) = g_k^* \delta(x) \]

其中\(\delta(x)\)为估计量，\(g_k^*\)为决策空间的导出变换。

情况1：估计参数\(\sigma\)

1. 决策空间的导出群

待估参数为\(\sigma\)，参数变换为\(\sigma' = k\sigma\)，因此估计量\(d\)应做同比例变换\(d' = kd\)。

定义决策空间的导出变换：

\[G^* = \{g_k^*: k>0\}, \quad g_k^* d = kd \]

显然\(G^* = \bar{G}\)，与参数空间的导出群完全一致。

2. 同变条件的推导与化简

将\(g_k x = kx\)、\(g_k^* \delta(x) = k\widehat{\sigma}(x)\)代入同变准则，得到\(\sigma\)的同变估计必须满足的条件：

\[\widehat{\sigma}(kx) = k \widehat{\sigma}(x) \tag{4.3.1} \]

该式的本质是估计量的一次齐次性。

对该式做关键化简：取\(k = \sigma^{-1}\)（\(\sigma>0\)，\(k>0\)为合法变换），代入得：

\[\widehat{\sigma}\left( \frac{x}{\sigma} \right) = \frac{\widehat{\sigma}(x)}{\sigma} \tag{4.3.2} \]

3. 同变估计的一般形式

将(4.3.2)变形，得到：

\[\widehat{\sigma}(X) = \sigma \cdot \widehat{\sigma}\left( \frac{X}{\sigma} \right) \]

令\(Z = X/\sigma\)，由前置性质可知\(Z \sim P_1\)，与\(\sigma\)完全无关，记\(h(Z) = \widehat{\sigma}(Z)\)，则\(\sigma\)的同变估计可统一表示为：

\[\widehat{\sigma}(X) = \sigma \cdot h(Z), \quad h(Z) \text{与} \ \sigma \text{无关} \]

这一形式完全刻画了所有同变估计的结构，是后续求解最小风险同变估计（MREE）的核心基础。

情况2：估计参数\(\sigma^r\)（\(r\)为任意实数）

该情况为一般情形，覆盖了方差\(\sigma^2\)（\(r=2\)）、精度\(1/\sigma^2\)（\(r=-2\)）等常见估计场景。

1. 决策空间的导出群

待估参数为\(\sigma^r\)，当参数变换为\(\sigma' = k\sigma\)时，待估参数的变换为\((\sigma')^r = (k\sigma)^r = k^r \sigma^r\)，因此估计量\(d\)应做对应变换\(d' = k^r d\)。

定义决策空间的导出变换：

\[\widetilde{G}^* = \{\widetilde{g}_k^*: k>0\}, \quad \widetilde{g}_k^* d = k^r d \]

2. 同变条件的推导与化简

将\(g_k x = kx\)、\(\widetilde{g}_k^* \delta(x) = k^r \widehat{\sigma^r}(x)\)代入同变准则，得到\(\sigma^r\)的同变估计必须满足的条件：

\[\widehat{\sigma^r}(kx) = k^r \widehat{\sigma^r}(x) \tag{4.3.3} \]

该式的本质是估计量的r次齐次性。

同样取\(k = \sigma^{-1}\)代入，化简得：

\[\widehat{\sigma^r}\left( \frac{x}{\sigma} \right) = \frac{\widehat{\sigma^r}(x)}{\sigma^r} \]

3. 同变估计的一般形式

变形后得到\(\sigma^r\)的同变估计的统一形式：

\[\widehat{\sigma^r}(X) = \sigma^r \cdot h(Z), \quad Z=X/\sigma \sim P_1, \ h(Z) \text{与} \ \sigma \text{无关} \]

四、相似同变损失函数

损失函数\(L(\sigma,d)\)衡量“真实参数为\(\sigma\)，用\(d\)作为估计”的损失。对于同变估计，要求损失函数具有变换不变性：样本、参数、估计量做对应变换后，损失保持不变，即：

\[L(\sigma, d) = L(\bar{g}_k \sigma, g_k^* d), \quad \forall k>0 \]

情况1：估计\(\sigma\)时的同变损失函数

此时参数变换为\(\bar{g}_k \sigma = k\sigma\)，决策变换为\(g_k^* d = kd\)，因此同变损失条件为：

\[L(\sigma, d) = L(k\sigma, kd), \quad \forall k>0 \]

化简与一般形式

取\(k = \sigma^{-1}\)代入上式，得：

\[L(\sigma, d) = L\left( 1, \frac{d}{\sigma} \right) \]

令\(\rho(t) = L(1, t)\)（\(t = d/\sigma\)），则同变损失函数的一般形式为：

\[L(\sigma, d) = \rho\left( \frac{d}{\sigma} \right) \]

核心结论：估计\(\sigma\)时，同变损失函数必须是\(d/\sigma\)的函数，仅与估计量和真实参数的相对比值有关，与绝对尺度无关，完美适配尺度参数的估计特性。

常用同变损失函数

相对均方损失：取\(\rho(t) = (1-t)^2\)，则
\[L(\sigma, d) = \left( 1 - \frac{d}{\sigma} \right)^2 = \frac{(d-\sigma)^2}{\sigma^2} \]
相对绝对损失：取\(\rho(t) = |1-t|\)，则
\[L(\sigma, d) = \left| 1 - \frac{d}{\sigma} \right| \]

情况2：估计\(\sigma^r\)时的同变损失函数

此时参数变换为\(\bar{g}_k \sigma = k\sigma\)，决策变换为\(\widetilde{g}_k^* d = k^r d\)，因此同变损失条件为：

\[L(\sigma, d) = L(k\sigma, k^r d), \quad \forall k>0 \]

化简与一般形式

取\(k = \sigma^{-1}\)代入，得：

\[L(\sigma, d) = L\left( 1, \frac{d}{\sigma^r} \right) \]

令\(\rho(t) = L(1, t)\)（\(t = d/\sigma^r\)），则同变损失函数的一般形式为：

\[L(\sigma, d) = \rho\left( \frac{d}{\sigma^r} \right) \]

常用同变损失函数

相对均方损失：取\(\rho(t) = (1-t)^2\)，则
\[L(\sigma, d) = \left( 1 - \frac{d}{\sigma^r} \right)^2 = \frac{(d-\sigma^r)^2}{\sigma^{2r}} \]
相对绝对损失：取\(\rho(t) = |1-t|\)，则
\[L(\sigma, d) = \left| 1 - \frac{d}{\sigma^r} \right| \]

五、核心知识点归纳总结表

分类维度	估计\(\sigma\)（\(r=1\)）	估计\(\sigma^r\)（一般情形）
尺度参数分布族定义	密度\(p(x,\sigma)=\frac{1}{\sigma^n}f\left(\frac{x}{\sigma}\right)\)，\(\sigma>0\)；\(X/\sigma \sim P_1\)（与\(\sigma\)无关的标准分布）	同左，待估参数为\(\sigma^r\)（\(r \in \mathbb{R}\)）
样本空间相似变换群	\(G=\{g_k: k>0\}\)，\(g_k x = kx\)，对样本做尺度缩放	同左
参数空间导出群	\(\bar{G}=\{\bar{g}_k: k>0\}\)，\(\bar{g}_k \sigma = k\sigma\)，参数同比例缩放	同左，待估参数变换：\(\sigma^r \to k^r \sigma^r\)
决策空间导出群	\(G^=\bar{G}\)，\(g_k^ d = kd\)，估计量同比例缩放	\(\widetilde{G}^=\{\widetilde{g}_k^: k>0\}\)，\(\widetilde{g}_k^* d = k^r d\)
同变估计核心条件	一次齐次性：\(\widehat{\sigma}(kx) = k \widehat{\sigma}(x)\) 等价形式：\(\widehat{\sigma}(x/\sigma) = \widehat{\sigma}(x)/\sigma\)	r次齐次性：\(\widehat{\sigma^r}(kx) = k^r \widehat{\sigma^r}(x)\) 等价形式：\(\widehat{\sigma^r}(x/\sigma) = \widehat{\sigma^r}(x)/\sigma^r\)
同变估计一般形式	\(\widehat{\sigma}(X) = \sigma \cdot h(Z)\)，\(Z=X/\sigma \sim P_1\)，\(h(Z)\)与\(\sigma\)无关	\(\widehat{\sigma^r}(X) = \sigma^r \cdot h(Z)\)，\(Z=X/\sigma \sim P_1\)，\(h(Z)\)与\(\sigma\)无关
同变损失函数条件	\(L(\sigma,d) = L(k\sigma, kd), \ \forall k>0\)	\(L(\sigma,d) = L(k\sigma, k^r d), \ \forall k>0\)
同变损失函数一般形式	\(L(\sigma,d) = \rho\left( \frac{d}{\sigma} \right)\)，\(\rho(t)=L(1,t)\)	\(L(\sigma,d) = \rho\left( \frac{d}{\sigma^r} \right)\)，\(\rho(t)=L(1,t)\)
常用同变损失函数	1. 相对均方损失：\(\frac{(d-\sigma)^2}{\sigma^2}\) 2. 相对绝对损失：\(\left\|1-\frac{d}{\sigma}\right\|\)	1. 相对均方损失：\(\frac{(d-\sigma^r)^2}{\sigma^{2r}}\) 2. 相对绝对损失：\(\left\|1-\frac{d}{\sigma^r}\right\|\)
核心特性	估计量齐次性、损失尺度不变性，风险仅与相对误差有关	同左，适配所有幂次尺度参数的估计场景

六、资深研究员的经验提示

同变估计的本质是利用分布族的对称性，消除未知参数的影响，将带参数的估计问题转化为无参数的标准分布问题，大幅简化最小风险估计的求解。
普通均方损失\((d-\sigma)^2\)不适合尺度参数估计：尺度变换后损失会随尺度平方放大，无法衡量估计的相对优劣；而相对均方损失具有严格的尺度不变性，是尺度参数估计的天然选择。
常用的样本标准差\(S\)满足\(S(kX)=kS(X)\)，符合\(\sigma\)的同变条件，这是其作为\(\sigma\)常用估计量的核心理论依据。
后续求解最小风险同变估计（MREE），只需在同变估计的一般形式中，找到使风险\(E[L(\sigma,\widehat{\sigma})]\)最小的\(h(Z)\)，而风险与\(\sigma\)无关，仅需在\(\sigma=1\)的标准分布下计算即可。

尺度参数的最优同变估计全知识点详解与严格推导

我将以多年数理统计科研与教学的经验，承接上一节尺度参数分布族与相似变换群的基础，从核心概念出发，完成所有引理、定理的完整推导，拆解逻辑链条，最终进行结构化归纳总结。

一、章节核心目标与逻辑框架

上一节我们定义了尺度参数分布族的相似变换群、同变估计的齐次性约束、同变损失函数。本节的核心目标是：在所有满足同变性的估计中，找到风险最小的估计——最小风险同变估计（MREE，即最优同变估计）。

整体逻辑链条为：

定义相似不变量，刻画尺度变换下保持不变的统计量；
通过3个引理，推导出所有同变估计的统一结构，将无穷多的同变估计转化为“固定同变估计×不变量函数”的形式；
借助均方误差最小化引理，推导出核心的Pitman定理，给出最优同变估计的显式表达式；
结合完备充分统计量，给出定理的实用推论，覆盖绝大多数实际应用场景；
通过经典例题，演示最优同变估计的求解步骤与实际意义。

二、核心概念：相似不变量与最大不变量

1. 相似不变量的定义

对于样本空间上的相似变换群\(G=\{g_k: k>0\}\)（\(g_k x = kx\)，即对样本做尺度为\(k\)的缩放），若统计量\(u(X)\)满足：

\[u(g_k X) = u(X), \quad \forall k>0 \]

即样本做任意尺度缩放后，统计量的值保持不变，则称\(u(X)\)为相似不变量。

核心性质：相似不变量的分布仅与\(\sigma=1\)时的标准分布\(P_1\)有关，与未知参数\(\sigma\)完全无关，因此是辅助统计量。

2. 最大不变量的定义

统计量\(Z(X)\)称为相似变换群的最大不变量，当且仅当：

\(Z(X)\)是相似不变量，即\(Z(g_k X)=Z(X), \forall k>0\)；
任何相似不变量\(u(X)\)，都可以表示为\(Z(X)\)的函数，即\(u(X)=\psi(Z(X))\)。

最大不变量的核心意义：它完全消去了样本中关于尺度参数\(\sigma\)的所有信息，刻画了所有不变量的结构，是求解最优同变估计的核心工具。

三、核心引理的详细讲解与严格证明

引理4.3.1 同变估计与不变量的对应关系

引理内容：若\(\widehat{\sigma}_1(x)\)和\(\widehat{\sigma}_2(x)\)为\(\sigma\)的相似同变估计，则\(u(x)=\frac{\widehat{\sigma}_1(x)}{\widehat{\sigma}_2(x)}\)为相似不变量；反之，若\(u(x)\)为相似不变量，\(\widehat{\sigma}_1(x)\)为相似同变估计，则\(\widehat{\sigma}_2(x)=\widehat{\sigma}_1(x)u(x)\)也为相似同变估计。

引理意义：建立了同变估计与不变量的一一对应关系，证明了“所有同变估计都可以表示为某个固定同变估计乘以一个不变量”，为刻画所有同变估计的结构奠定基础。

严格证明：

正向证明（同变估计的比值是不变量）
由同变估计的定义，\(\widehat{\sigma}_1(kx)=k\widehat{\sigma}_1(x)\)，\(\widehat{\sigma}_2(kx)=k\widehat{\sigma}_2(x)\)，因此：

\[u(kx) = \frac{\widehat{\sigma}_1(kx)}{\widehat{\sigma}_2(kx)} = \frac{k\widehat{\sigma}_1(x)}{k\widehat{\sigma}_2(x)} = \frac{\widehat{\sigma}_1(x)}{\widehat{\sigma}_2(x)} = u(x) \]
满足相似不变量的定义，证毕。
反向证明（同变估计×不变量仍是同变估计）
已知\(u(kx)=u(x)\)，\(\widehat{\sigma}_1(kx)=k\widehat{\sigma}_1(x)\)，因此：

\[\widehat{\sigma}_2(kx) = \widehat{\sigma}_1(kx)u(kx) = k\widehat{\sigma}_1(x)u(x) = k\widehat{\sigma}_2(x) \]
满足同变估计的一次齐次性条件，因此\(\widehat{\sigma}_2(x)\)是相似同变估计，证毕。

引理4.3.2 不变量的结构与最大不变量

引理内容：\(u(x)\)为相似不变量的充要条件是：存在函数\(\psi(\cdot)\)，使得\(u(x)=\psi(Z(x))\)，其中最大不变量\(Z=(z_1,z_2,\dots,z_n)^T\)的分量为：

\[z_1 = \frac{x_1}{|x_1|}, \quad z_i = \frac{x_i}{x_1}, \ i=2,\dots,n \]

（要求\(P(|X_1|=0)=0\)，即\(X_1\)几乎处处不为0），且\(u(X)\)的分布仅与标准分布\(P_1\)有关，与\(\sigma\)无关。

引理意义：完全刻画了所有相似不变量的结构，证明了任何不变量都可以表示为最大不变量的函数，同时证明了不变量的分布与\(\sigma\)无关，为后续消除未知参数、简化期望计算提供了核心依据。

严格证明：

必要性（不变量必为最大不变量的函数）
已知\(u(x)\)是相似不变量，即对任意\(k>0\)，有\(u(kx_1,kx_2,\dots,kx_n)=u(x_1,x_2,\dots,x_n)\)。
取\(k=\frac{1}{|x_1|}\)（因\(|x_1|>0\)，\(k>0\)为合法变换），代入不变量条件得：

\[u(x_1,x_2,\dots,x_n) = u\left( \frac{x_1}{|x_1|}, \frac{x_2}{|x_1|}, \dots, \frac{x_n}{|x_1|} \right) \]
结合最大不变量的定义，\(\frac{x_i}{|x_1|} = \frac{x_i}{x_1} \cdot \frac{x_1}{|x_1|} = z_i z_1\)，因此上式可改写为：

\[u(x_1,\dots,x_n) = u(z_1, z_1 z_2, \dots, z_1 z_n) = \psi(z_1,z_2,\dots,z_n) = \psi(Z(x)) \]
即\(u(x)\)可表示为最大不变量\(Z\)的函数，必要性得证。
充分性（最大不变量的函数必为不变量）
若\(u(x)=\psi(Z(x))\)，首先验证\(Z\)是不变量：对任意\(k>0\)，

\[z_1(kx) = \frac{kx_1}{|kx_1|} = \frac{kx_1}{k|x_1|} = \frac{x_1}{|x_1|} = z_1(x), \quad z_i(kx) = \frac{kx_i}{kx_1} = \frac{x_i}{x_1} = z_i(x) \]
因此\(Z(kx)=Z(x)\)，进而\(u(kx)=\psi(Z(kx))=\psi(Z(x))=u(x)\)，即\(u(x)\)是相似不变量。

同时，\(Z(X)=Z(X/\sigma)\)，而\(X/\sigma \sim P_1\)与\(\sigma\)无关，因此\(u(X)=\psi(Z(X))\)的分布仅由\(P_1\)决定，与\(\sigma\)无关，充分性得证。

补充说明：

最大不变量不唯一，例如取\(k=1/|x_n|\)可构造另一组最大不变量，只要能完全消去尺度信息即可；
直观例子：\(|X_1|\)是同变估计，而\(X_1/X_n\)、\(X_{(1)}/X_{(n)}\)是不变量（缩放后\(k\)约去，值不变）。

引理4.3.3 所有同变估计的统一表达式

引理内容：设\(\widehat{\sigma}_1(x)\)为某一相似同变估计，则任一相似同变估计\(\widehat{\sigma}^*(x)\)可表示为：

\[\widehat{\sigma}^*(x) = \widehat{\sigma}_1(x) \cdot \psi(Z(x)) \]

其中\(\psi(\cdot)\)是关于最大不变量\(Z\)的函数。

引理意义：将“寻找所有同变估计”的无穷维问题，转化为“寻找一个关于最大不变量的函数\(\psi\)”的低维问题，是求解最优同变估计的核心基础。

严格证明：
由引理4.3.1，\(\widehat{\sigma}^*(x)\)和\(\widehat{\sigma}_1(x)\)都是同变估计，因此\(u(x)=\frac{\widehat{\sigma}^*(x)}{\widehat{\sigma}_1(x)}\)是相似不变量；
再由引理4.3.2，任何相似不变量都可表示为最大不变量\(Z\)的函数，即\(u(x)=\psi(Z(x))\)；
因此\(\widehat{\sigma}^*(x) = \widehat{\sigma}_1(x) \cdot u(x) = \widehat{\sigma}_1(x) \cdot \psi(Z(x))\)，证毕。

引理4.3.4 均方误差的最小化引理

引理内容：记均方误差\(MSE = E\left[ a(X) + b(X)\psi(Y) \right]^2\)，则当

\[\psi(Y) = -\frac{E\left[ a(X)b(X) \mid Y \right]}{E\left[ b^2(X) \mid Y \right]} \]

时，MSE达到最小值。

引理意义：这是求解带条件期望的均方误差最小值的核心数学工具，是后续Pitman定理证明的关键，本质是条件期望下的最小二乘优化。

严格证明：

利用重期望公式（全期望公式），将MSE展开为条件期望的嵌套形式：

\[MSE = E\left\{ E\left[ \left( a(X) + b(X)\psi(Y) \right)^2 \mid Y \right] \right\} \]
分析内层条件期望：当给定\(Y\)时，\(\psi(Y)\)是确定的常数，记为\(\lambda\)，此时内层期望变为关于\(\lambda\)的一元二次函数：

\[f(\lambda) = E\left[ \left( a(X) + b(X)\lambda \right)^2 \mid Y \right] \]
展开平方项，利用条件期望的线性性质：

\[f(\lambda) = \lambda^2 \cdot E\left[ b^2(X) \mid Y \right] + 2\lambda \cdot E\left[ a(X)b(X) \mid Y \right] + E\left[ a^2(X) \mid Y \right] \]
二次函数最小值求解：
这是开口向上的二次函数（二次项系数\(E[b^2(X)|Y] \geq 0\)），最小值在一阶导数为0处取得。求导得：

\[f'(\lambda) = 2\lambda E\left[ b^2(X) \mid Y \right] + 2E\left[ a(X)b(X) \mid Y \right] \]
令\(f'(\lambda)=0\)，解得：

\[\lambda = -\frac{E\left[ a(X)b(X) \mid Y \right]}{E\left[ b^2(X) \mid Y \right]} \]
二阶导数\(f''(\lambda)=2E[b^2(X)|Y] \geq 0\)，因此该点为全局最小值点。
该最优\(\lambda\)是关于\(Y\)的函数，即\(\psi(Y)\)，此时内层条件期望达到最小，外层对\(Y\)的期望也随之达到最小，因此MSE全局最小，证毕。

四、核心定理：Pitman定理（尺度参数最优同变估计）

定理内容

设\(\widehat{\sigma}(X)\)为\(\sigma\)的某一个相似同变估计，则在相对均方损失\(L(\sigma,d)=\frac{(d-\sigma)^2}{\sigma^2}\)下，\(\sigma\)的最优同变估计为：

\[\widehat{\sigma}^*(X) = \frac{E_1\left[ \widehat{\sigma}(X) \mid Z \right]}{E_1\left[ \widehat{\sigma}^2(X) \mid Z \right]} \cdot \widehat{\sigma}(X) \tag{4.3.5} \]

其中\(E_1\)表示对标准分布\(P_1\)（\(\sigma=1\)时的分布）取期望，\(Z\)为最大不变量；且该最优解唯一，与初始同变估计\(\widehat{\sigma}(X)\)的选取无关。

定理意义

Pitman定理是尺度参数同变估计的核心结论，它给出了最优同变估计的显式表达式，证明了最优解的唯一性，且允许我们选择任意简单的初始同变估计进行计算，大幅降低了求解难度。

严格证明

证明分为两部分：最优性证明（该表达式使风险最小）和唯一性证明（结果与初始估计无关）。

1. 最优性证明

步骤1：确定同变估计的结构与风险函数
根据引理4.3.3，所有同变估计都可表示为\(\widehat{\sigma}^*(X) = \widehat{\sigma}(X)\psi(Z)\)，我们的目标是找到\(\psi(\cdot)\)，使风险函数最小。

采用同变的相对均方损失\(L(\sigma,d)=\left( \frac{d}{\sigma} - 1 \right)^2\)，因此风险函数为：

\[R(\sigma, \widehat{\sigma}^*) = E_\sigma\left[ \left( \frac{\widehat{\sigma}^*(X)}{\sigma} - 1 \right)^2 \right] \]

将\(\widehat{\sigma}^*(X)=\widehat{\sigma}(X)\psi(Z)\)代入，得：

\[R(\sigma, \widehat{\sigma}^*) = E_\sigma\left[ \left( \frac{\widehat{\sigma}(X)\psi(Z)}{\sigma} - 1 \right)^2 \right] \]

步骤2：消除未知参数\(\sigma\)，将期望转化为标准分布\(P_1\)下的期望
根据同变估计的核心性质（上一节4.3.2式），同变估计满足\(\frac{\widehat{\sigma}(X)}{\sigma} = \widehat{\sigma}\left( \frac{X}{\sigma} \right)\)；同时，最大不变量\(Z(X)=Z\left( \frac{X}{\sigma} \right)\)（不变量的性质）。

令\(Y = \frac{X}{\sigma}\)，则\(Y \sim P_1\)（与\(\sigma\)无关），\(X=\sigma Y\)，代入上式：

\[\frac{\widehat{\sigma}(X)}{\sigma} = \frac{\widehat{\sigma}(\sigma Y)}{\sigma} = \widehat{\sigma}(Y), \quad Z(X)=Z(\sigma Y)=Z(Y) \]

因此，风险函数中的期望可完全转化为对\(Y \sim P_1\)的期望\(E_1\)，且与\(\sigma\)完全无关：

\[R(\sigma, \widehat{\sigma}^*) = E_1\left[ \left( \widehat{\sigma}(Y)\psi(Z(Y)) - 1 \right)^2 \right] \]

步骤3：应用引理4.3.4，求解最优\(\psi(Z)\)
将上式的MSE改写为引理4.3.4的标准形式：

\[MSE = E_1\left[ -1 + \widehat{\sigma}(Y) \cdot \psi(Z) \right]^2 \]

对应引理中的\(a(Y)=-1\)，\(b(Y)=\widehat{\sigma}(Y)\)，\(Y\)对应引理中的\(X\)，\(Z\)对应引理中的\(Y\)。

根据引理4.3.4，最优的\(\psi(Z)\)为：

\[\psi(Z) = -\frac{E_1\left[ a(Y)b(Y) \mid Z \right]}{E_1\left[ b^2(Y) \mid Z \right]} = -\frac{E_1\left[ (-1)\cdot\widehat{\sigma}(Y) \mid Z \right]}{E_1\left[ \widehat{\sigma}^2(Y) \mid Z \right]} = \frac{E_1\left[ \widehat{\sigma}(Y) \mid Z \right]}{E_1\left[ \widehat{\sigma}^2(Y) \mid Z \right]} \]

将最优\(\psi(Z)\)代入同变估计的表达式，得到：

\[\widehat{\sigma}^*(X) = \frac{E_1\left[ \widehat{\sigma}(X) \mid Z \right]}{E_1\left[ \widehat{\sigma}^2(X) \mid Z \right]} \cdot \widehat{\sigma}(X) \]

最优性得证。

2. 唯一性证明

我们需要证明：无论选择哪个初始同变估计，最终得到的最优估计都是相同的。

假设选取另一初始同变估计\(\widetilde{\sigma}(X)\)，根据定理，对应的最优估计为：

\[\widetilde{\sigma}^*(X) = \frac{E_1\left[ \widetilde{\sigma}(X) \mid Z \right]}{E_1\left[ \widetilde{\sigma}^2(X) \mid Z \right]} \cdot \widetilde{\sigma}(X) \]

根据引理4.3.3，\(\widetilde{\sigma}(X)\)和\(\widehat{\sigma}(X)\)都是同变估计，因此存在关于\(Z\)的函数\(\varphi(Z)\)，使得\(\widetilde{\sigma}(X) = \widehat{\sigma}(X) \cdot \varphi(Z)\)。

将其代入\(\widetilde{\sigma}^*(X)\)的表达式：

分子：\(E_1\left[ \widetilde{\sigma}(X) \mid Z \right] = E_1\left[ \widehat{\sigma}(X)\varphi(Z) \mid Z \right] = \varphi(Z) \cdot E_1\left[ \widehat{\sigma}(X) \mid Z \right]\)（给定\(Z\)时，\(\varphi(Z)\)为常数，可提出条件期望）
分母：\(E_1\left[ \widetilde{\sigma}^2(X) \mid Z \right] = E_1\left[ \widehat{\sigma}^2(X)\varphi^2(Z) \mid Z \right] = \varphi^2(Z) \cdot E_1\left[ \widehat{\sigma}^2(X) \mid Z \right]\)

因此：

\[\widetilde{\sigma}^*(X) = \frac{\varphi(Z) E_1\left[ \widehat{\sigma} \mid Z \right]}{\varphi^2(Z) E_1\left[ \widehat{\sigma}^2 \mid Z \right]} \cdot \widehat{\sigma}(X)\varphi(Z) = \frac{E_1\left[ \widehat{\sigma} \mid Z \right]}{E_1\left[ \widehat{\sigma}^2 \mid Z \right]} \cdot \widehat{\sigma}(X) = \widehat{\sigma}^*(X) \]

即无论选择哪个初始同变估计，最终的最优估计完全相同，唯一性得证。

五、Pitman定理的实用推论

推论1 完备充分统计量下的简化形式

推论内容：若\(T=T(X)\)为\(\sigma\)的完备充分统计量，且\(\varphi(T)\)是\(\sigma\)的同变估计，则\(\sigma\)的最优同变估计为：

\[\widehat{\sigma}^*(X) = \frac{E_1\left[ \varphi(T) \right]}{E_1\left[ \varphi^2(T) \right]} \cdot \varphi(T) \tag{4.3.6} \]

推论意义：这是实际应用中最常用的形式。绝大多数常见分布都存在完备充分统计量，此时无需计算复杂的条件期望，仅需计算两个无条件期望，计算量大幅降低。

严格证明：
根据Basu定理：完备充分统计量与辅助统计量相互独立。
最大不变量\(Z\)的分布与\(\sigma\)无关，是辅助统计量，因此\(T\)与\(Z\)独立。

将初始同变估计取为\(\widehat{\sigma}(X)=\varphi(T)\)，代入Pitman定理的表达式：

\[\widehat{\sigma}^*(X) = \frac{E_1\left[ \varphi(T) \mid Z \right]}{E_1\left[ \varphi^2(T) \mid Z \right]} \cdot \varphi(T) \]

由于\(T\)与\(Z\)独立，条件期望等于无条件期望，即\(E_1[\varphi(T)|Z]=E_1[\varphi(T)]\)，\(E_1[\varphi^2(T)|Z]=E_1[\varphi^2(T)]\)，代入后即得推论1的表达式，证毕。

推论2 最简初始估计的形式

推论内容：取初始同变估计\(\widehat{\sigma}(X)=|X_1|\)，则\(\sigma\)的最优同变估计为：

\[\widehat{\sigma}^*(X) = \frac{E_1\left[ |X_1| \mid Z \right]}{E_1\left[ X_1^2 \mid Z \right]} \cdot |X_1| \tag{4.3.7} \]

推论意义：当找不到完备充分统计量时，可直接选取最简单的同变估计\(|X_1|\)，无需构造复杂的初始估计。

证明：\(|X_1|\)满足\(|kX_1|=k|X_1|\)，是\(\sigma\)的同变估计，直接代入Pitman定理即可得证。

推论3 尺度参数幂次\(\sigma^r\)的最优同变估计

推论内容：设\(\delta(X)\)为\(\sigma^r\)的某个同变估计（满足\(\delta(kX)=k^r\delta(X)\)，r次齐次性），则在相对均方损失\(L(\sigma,d)=\frac{(d-\sigma^r)^2}{\sigma^{2r}}\)下，\(\sigma^r\)的最优同变估计为：

\[\delta^*(X) = \frac{E_1\left[ \delta(X) \mid Z \right]}{E_1\left[ \delta^2(X) \mid Z \right]} \cdot \delta(X) \tag{4.3.8} \]

推论意义：将Pitman定理推广到任意幂次的尺度参数估计，覆盖了方差\(\sigma^2\)（\(r=2\)）、精度\(1/\sigma^2\)（\(r=-2\)）等绝大多数实际应用场景。

证明：与Pitman定理的证明逻辑完全一致，仅将同变条件从一次齐次性替换为r次齐次性，损失函数替换为对应\(\sigma^r\)的相对均方损失，重复推导步骤即可得证。

六、经典例题详解

例4.3.1 指数分布的尺度参数最优同变估计

题目：设\(X_1,\dots,X_n\)独立同分布，\(X_1 \sim \frac{1}{\sigma}e^{-x_1/\sigma}I\{x_1 \geq 0\}\)（指数分布，均值为\(\sigma\)），求\(\sigma\)的最优同变估计。

求解步骤：

验证尺度参数分布族：密度\(f(x,\sigma)=\frac{1}{\sigma}e^{-x/\sigma}I\{x\geq0\}\)，符合\(\frac{1}{\sigma}f(x/\sigma)\)的形式，\(\sigma\)为尺度参数。
找完备充分统计量：指数族的完备充分统计量为\(T=\sum_{i=1}^n X_i\)。
验证同变性：\(T(kX)=\sum kX_i = k\sum X_i = kT(X)\)，满足一次齐次性，是\(\sigma\)的同变估计。
用推论1计算：
当\(\sigma=1\)时，\(X_1 \sim \Gamma(1,1)\)，因此\(T=\sum X_i \sim \Gamma(n,1)\)（Gamma分布）。
Gamma分布\(\Gamma(\alpha,\lambda)\)的期望\(E(X)=\frac{\alpha}{\lambda}\)，\(E(X^2)=\frac{\alpha}{\lambda^2} + \left( \frac{\alpha}{\lambda} \right)^2\)，代入\(\alpha=n,\lambda=1\)：
\[E_1(T) = n, \quad E_1(T^2) = n + n^2 = n(n+1) \]
因此最优估计为：
\[\widehat{\sigma}^*(X) = \frac{E_1(T)}{E_1(T^2)} \cdot T = \frac{n}{n(n+1)} T = \frac{T}{n+1} = \frac{1}{n+1}\sum_{i=1}^n X_i \]

结果对比：\(\sigma\)的最大似然估计（MLE）和无偏估计均为\(\frac{T}{n}\)，二者都是同变估计，但在相对均方损失下，\(\frac{T}{n+1}\)的风险更小，更优。

例4.3.2 均匀分布\(R(0,\theta)\)的尺度参数最优同变估计

题目：设\(X_1,\dots,X_n\)独立同分布，\(X_1 \sim R(0,\theta)\)，求\(\theta\)的最优同变估计。

求解步骤：

验证尺度参数分布族：密度\(f(x,\theta)=\frac{1}{\theta}I\{0\leq x\leq\theta\}\)，符合\(\frac{1}{\theta}f(x/\theta)\)的形式，\(\theta\)为尺度参数。
找完备充分统计量：次序统计量\(X_{(n)}=\max\{X_1,\dots,X_n\}\)是\(\theta\)的完备充分统计量。
验证同变性：\(X_{(n)}(kX)=\max\{kX_i\}=k\max\{X_i\}=kX_{(n)}(X)\)，是同变估计。
用推论1计算：
当\(\theta=1\)时，\(X_{(n)} \sim BE(n,1)\)（Beta分布），密度为\(f(t)=n t^{n-1}I\{0\leq t\leq1\}\)。
计算期望：
\[E_1(X_{(n)}) = \int_0^1 t \cdot n t^{n-1} dt = \frac{n}{n+1}, \quad E_1(X_{(n)}^2) = \int_0^1 t^2 \cdot n t^{n-1} dt = \frac{n}{n+2} \]
因此最优估计为：
\[\widehat{\theta}^*(X) = \frac{E_1(X_{(n)})}{E_1(X_{(n)}^2)} \cdot X_{(n)} = \frac{n/(n+1)}{n/(n+2)} X_{(n)} = \frac{n+2}{n+1}X_{(n)} \]

结果对比：\(\theta\)的MLE为\(X_{(n)}\)，无偏估计为\(\frac{n+1}{n}X_{(n)}\)，二者均为同变估计，但相对均方损失下，\(\frac{n+2}{n+1}X_{(n)}\)更优。

例4.3.3 正态分布\(N(0,\sigma^2)\)的方差最优同变估计

题目：设\(X_1,\dots,X_n\)独立同分布，\(X_1 \sim N(0,\sigma^2)\)，求\(\sigma^2\)的最优同变估计。

求解步骤：

验证尺度参数分布族：\(N(0,\sigma^2)\)的密度符合尺度参数形式，\(\sigma\)为尺度参数，待估参数为\(\sigma^2\)（\(r=2\)）。
找完备充分统计量：\(T=\sum_{i=1}^n X_i^2\)是\(\sigma^2\)的完备充分统计量。
验证同变性：\(T(kX)=\sum (kX_i)^2 = k^2 \sum X_i^2 = k^2 T(X)\)，满足\(r=2\)的齐次性，是\(\sigma^2\)的同变估计。
用推论3（结合完备充分统计量）计算：
当\(\sigma=1\)时，\(X_1^2 \sim \chi^2(1)\)，因此\(T=\sum X_i^2 \sim \chi^2(n)\)（自由度为n的卡方分布）。
卡方分布\(\chi^2(\nu)\)的期望\(E(X)=\nu\)，\(E(X^2)=2\nu + \nu^2\)，代入\(\nu=n\)：
\[E_1(T)=n, \quad E_1(T^2)=2n + n^2 = n(n+2) \]
因此最优估计为：
\[\widehat{\sigma^2}^*(X) = \frac{E_1(T)}{E_1(T^2)} \cdot T = \frac{n}{n(n+2)} T = \frac{T}{n+2} = \frac{1}{n+2}\sum_{i=1}^n X_i^2 \]

结果对比：\(\sigma^2\)的MLE为\(\frac{T}{n}\)，无偏估计为\(\frac{T}{n-1}\)，二者均为同变估计，但相对均方损失下，\(\frac{T}{n+2}\)更优。

七、核心知识点归纳总结表

表1 核心概念定义表

概念名称	严格定义	核心性质与意义
相似不变量	对相似变换群\(G=\{g_k:k>0\}\)，满足\(u(g_k X)=u(X), \forall k>0\)的统计量	分布仅与标准分布\(P_1\)有关，与\(\sigma\)无关，是辅助统计量
最大不变量	①是不变量；②任何不变量都可表示为它的函数	完全消去尺度信息，刻画所有不变量的结构，是求解同变估计的核心工具
尺度同变估计	对\(\sigma\)的估计满足\(\widehat{\sigma}(kX)=k\widehat{\sigma}(X)\)（一次齐次）；对\(\sigma^r\)满足\(\widehat{\sigma^r}(kX)=k^r\widehat{\sigma^r}(X)\)（r次齐次）	样本尺度缩放时，估计量做对应变换，符合尺度参数的物理意义
同变均方损失	对\(\sigma\)：\(L(\sigma,d)=\frac{(d-\sigma)^2}{\sigma^2}\)；对\(\sigma^r\)：\(L(\sigma,d)=\frac{(d-\sigma^r)^2}{\sigma^{2r}}\)	变换不变性，仅与相对误差有关，适配尺度参数估计

表2 核心引理汇总表

引理编号	核心结论	核心作用
4.3.1	两个同变估计的比值是不变量；同变估计×不变量仍是同变估计	建立同变估计与不变量的一一对应关系
4.3.2	所有相似不变量都可表示为最大不变量的函数，分布与\(\sigma\)无关	刻画不变量的结构，消除未知参数\(\sigma\)的影响
4.3.3	任一同变估计都可表示为「固定同变估计×最大不变量的函数」	给出所有同变估计的统一形式，将优化问题降维
4.3.4	给出带条件期望的均方误差的最小值点表达式	Pitman定理证明的核心数学工具

表3 核心定理与推论汇总表

定理/推论	核心表达式	适用场景	核心优势
Pitman定理	\(\widehat{\sigma}^*(X) = \frac{E_1[\widehat{\sigma}(X)\|Z]}{E_1[\widehat{\sigma}^2(X)\|Z]} \cdot \widehat{\sigma}(X)\)	任意尺度参数分布族的\(\sigma\)估计	显式表达式，解唯一，初始估计可任意选择
推论1（完备充分统计量简化）	\(\widehat{\sigma}^*(X) = \frac{E_1[\varphi(T)]}{E_1[\varphi^2(T)]} \cdot \varphi(T)\)	存在完备充分统计量的分布（绝大多数常见分布）	无需计算条件期望，仅需两个无条件期望，计算量极低
推论3（\(\sigma^r\)的推广）	\(\delta^*(X) = \frac{E_1[\delta(X)\|Z]}{E_1[\delta^2(X)\|Z]} \cdot \delta(X)\)	尺度参数的幂次估计（方差、精度等）	覆盖几乎所有实际应用场景

表4 经典分布最优同变估计结果汇总表

分布类型	待估参数	完备充分统计量	最优同变估计	对比：MLE/无偏估计
指数分布\(Exp(1/\sigma)\)	\(\sigma\)	\(T=\sum_{i=1}^n X_i\)	\(\widehat{\sigma}^*=\frac{1}{n+1}\sum X_i\)	MLE/无偏估计：\(\frac{1}{n}\sum X_i\)，风险更高
均匀分布\(R(0,\theta)\)	\(\theta\)	\(T=X_{(n)}\)	\(\widehat{\theta}^*=\frac{n+2}{n+1}X_{(n)}\)	MLE：\(X_{(n)}\)，无偏估计：\(\frac{n+1}{n}X_{(n)}\)，风险更高
正态分布\(N(0,\sigma^2)\)	\(\sigma^2\)	\(T=\sum_{i=1}^n X_i^2\)	\(\widehat{\sigma^2}^*=\frac{1}{n+2}\sum X_i^2\)	MLE：\(\frac{1}{n}\sum X_i^2\)，无偏估计：\(\frac{1}{n-1}\sum X_i^2\)，风险更高
瑞利分布	\(\sigma^2\)	\(T=\sum_{i=1}^n X_i^2\)	\(\widehat{\sigma^2}^*=\frac{1}{n+1}\sum X_i^2\)	MLE/无偏估计：\(\frac{1}{n}\sum X_i^2\)，风险更高

八、资深研究员的教学总结

核心逻辑：整个章节的本质是利用分布族的对称性（尺度不变性），将带未知参数的无穷维估计问题，转化为无参数的低维优化问题，最终通过最小二乘思想得到显式最优解。
同变性的直观意义：尺度参数的物理意义是“度量单位”，同变性要求“单位从米换成厘米时，估计值也乘以100”，这是估计量合理性的基本要求。
偏差-方差权衡：最优同变估计牺牲了无偏性，换来了更小的整体均方误差。例如正态方差的最优同变估计\(\frac{T}{n+2}\)，虽然有偏，但在相对均方损失下，比无偏估计\(\frac{T}{n-1}\)表现更好，这是统计决策的经典结论。
实用技巧：实际应用中，90%以上的场景都可以通过「找完备充分统计量→验证同变性→用推论1计算」三步完成最优同变估计的求解，无需复杂的条件期望计算。

Pitman积分公式全知识点详解与严格推导

承接上一节尺度参数最优同变估计的Pitman定理，本节的核心目标是将最优同变估计的条件期望形式，转化为仅依赖样本密度的积分显式形式——Pitman积分公式，彻底解决条件期望计算复杂的问题，让最优同变估计的求解无需再推导最大不变量的条件分布，仅通过样本密度对尺度参数的积分即可完成，是尺度参数估计中最具实用价值的结论之一。

我将以60余年数理统计教学与科研的经验，从核心引理出发，完成全流程的严格推导，拆解每一步变换的逻辑，最终总结公式的应用方法与核心价值。

一、本节的核心逻辑铺垫

上一节的推论2给出了尺度参数\(\sigma\)的最优同变估计的最简形式：

\[\widehat{\sigma}^*(X) = \frac{E_1\left( |X_1| \mid Z \right)}{E_1\left( X_1^2 \mid Z \right)} \cdot |X_1| \]

其中\(E_1\)表示对标准分布\(P_1\)（\(\sigma=1\)）取期望，\(Z=(Z_1,Z_2,\dots,Z_n)^T\)是相似变换群的最大不变量，定义为：

\[Z_1 = \frac{X_1}{|X_1|}, \quad Z_i = \frac{X_i}{X_1}, \ i=2,3,\dots,n \]

该式理论上完美，但实际计算存在核心障碍：要计算条件期望\(E_1(|X_1||Z)\)和\(E_1(X_1^2|Z)\)，必须先求出给定最大不变量\(Z\)时，\(X_1\)的条件分布\(p(x_1|z_1,z_2,\dots,z_n)\)。本节的两个核心引理，就是为了求解这个条件分布，为最终的Pitman积分公式奠定基础。

二、核心引理的详细讲解与严格证明

引理4.3.5 给定\(Z_2,\dots,Z_n\)时\(X_1\)的条件分布

引理内容：假设\(P(X_1=0)=0\)（即\(X_1\)几乎处处不为0），则当\(\sigma=1\)时，\(X_1\)给定\(Z_2,\dots,Z_n\)的条件分布为：

\[p(x_1|z_2,\dots,z_n) = \frac{|x_1|^{n-1} f(x_1, x_1 z_2, \dots, x_1 z_n)}{\int_{-\infty}^{\infty} |u|^{n-1} f(u, u z_2, \dots, u z_n) du} \tag{4.3.9} \]

其中\(f(x_1,\dots,x_n)\)是标准分布\(P_1\)的概率密度函数。

引理意义：给出了\(X_1\)关于部分最大不变量\(Z_2,\dots,Z_n\)的条件分布，是后续计算条件期望的核心基础，其推导的关键是n维随机变量的线性变换与雅可比行列式计算。

引理4.3.5的严格证明

我们的目标是求\((X_1,Z_2,\dots,Z_n)\)的联合分布，再通过条件分布公式得到结果，分为3个核心步骤：

步骤1：构造可逆变换，计算雅可比行列式

我们构造从\((X_1,X_2,\dots,X_n)\)到\((Y_1,Y_2,\dots,Y_n)\)的一一变换：

\[\begin{cases} Y_1 = X_1 \\ Y_2 = \frac{X_2}{X_1} = Z_2 \\ \quad \vdots \\ Y_n = \frac{X_n}{X_1} = Z_n \end{cases} \]

其逆变换为：

\[\begin{cases} X_1 = Y_1 \\ X_2 = Y_1 Y_2 \\ \quad \vdots \\ X_n = Y_1 Y_n \end{cases} \]

接下来计算该逆变换的雅可比行列式：
雅可比矩阵\(J\)是n阶方阵，其元素为\(J_{ij} = \frac{\partial X_i}{\partial Y_j}\)，具体形式为：

\[J = \begin{pmatrix} \frac{\partial X_1}{\partial Y_1} & \frac{\partial X_1}{\partial Y_2} & \dots & \frac{\partial X_1}{\partial Y_n} \\ \frac{\partial X_2}{\partial Y_1} & \frac{\partial X_2}{\partial Y_2} & \dots & \frac{\partial X_2}{\partial Y_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial X_n}{\partial Y_1} & \frac{\partial X_n}{\partial Y_2} & \dots & \frac{\partial X_n}{\partial Y_n} \end{pmatrix} = \begin{pmatrix} 1 & 0 & 0 & \dots & 0 \\ Y_2 & Y_1 & 0 & \dots & 0 \\ Y_3 & 0 & Y_1 & \dots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ Y_n & 0 & 0 & \dots & Y_1 \end{pmatrix} \]

这是一个下三角矩阵，其行列式等于所有对角元的乘积。对角元依次为\(1, Y_1, Y_1, \dots, Y_1\)（共\(n-1\)个\(Y_1\)），因此：

\[\det(J) = 1 \cdot Y_1 \cdot Y_1 \cdot \dots \cdot Y_1 = Y_1^{n-1} \]

雅可比行列式的绝对值为\(|J| = |Y_1|^{n-1}\)。

步骤2：推导\((Y_1,Y_2,\dots,Y_n)\)的联合密度

已知当\(\sigma=1\)时，\((X_1,\dots,X_n)\)的联合密度为\(f(x_1,x_2,\dots,x_n)\)。根据随机变量变换的密度公式，变换后的\((Y_1,\dots,Y_n)\)的联合密度为：

\[p_Y(y_1,y_2,\dots,y_n) = f\left( y_1, y_1 y_2, \dots, y_1 y_n \right) \cdot |J| \]

代入\(|J|=|y_1|^{n-1}\)，得：

\[p_Y(y_1,y_2,\dots,y_n) = f\left( y_1, y_1 y_2, \dots, y_1 y_n \right) \cdot |y_1|^{n-1} \]

而\(Y_1=X_1\)，\(Y_2=Z_2,\dots,Y_n=Z_n\)，因此\((X_1,Z_2,\dots,Z_n)\)的联合密度为：

\[p(x_1,z_2,\dots,z_n) = f\left( x_1, x_1 z_2, \dots, x_1 z_n \right) \cdot |x_1|^{n-1} \]

步骤3：推导条件分布

根据条件分布的定义，\(p(x_1|z_2,\dots,z_n) = \frac{p(x_1,z_2,\dots,z_n)}{p(z_2,\dots,z_n)}\)，其中边缘密度\(p(z_2,\dots,z_n)\)是联合密度对\(x_1\)的积分：

\[p(z_2,\dots,z_n) = \int_{-\infty}^{\infty} p(x_1,z_2,\dots,z_n) dx_1 = \int_{-\infty}^{\infty} |u|^{n-1} f(u, u z_2, \dots, u z_n) du \]

将联合密度和边缘密度代入条件分布公式，即可得到引理4.3.5的结果，证毕。

引理4.3.6 给定完整最大不变量\(Z=(Z_1,Z_2,\dots,Z_n)\)时\(X_1\)的条件分布

引理内容：设\(p_z = P(X_1>0 | Z_2=z_2,\dots,Z_n=z_n)\)，则给定\(Z=(z_1,z_2,\dots,z_n)\)时，\(X_1\)的条件分布为：

\[p(x_1|z_1,z_2,\dots,z_n) = \begin{cases} p_z^{-1} p(x_1|z_2,\dots,z_n) I\{x_1>0\}, & z_1=1 \\ (1-p_z)^{-1} p(x_1|z_2,\dots,z_n) I\{x_1<0\}, & z_1=-1 \end{cases} \]

其中\(I\{\cdot\}\)为示性函数，\(Z_1=X_1/|X_1|\)，仅取\(\pm1\)两个值：\(Z_1=1\)等价于\(X_1>0\)，\(Z_1=-1\)等价于\(X_1<0\)。

引理意义：处理了最大不变量中离散分量\(Z_1\)的影响，将完整的条件分布转化为引理4.3.5中连续条件分布的截断形式，为条件期望的计算扫清了最后障碍。

引理4.3.6的严格证明

我们仅证明\(z_1=1\)（即\(X_1>0\)）的情形，\(z_1=-1\)的情形完全对称。

根据条件分布函数的定义，给定\(Z_1=1,Z_2=z_2,\dots,Z_n=z_n\)时，\(X_1\)的条件分布函数为：

\[F(x_1 | z_1=1, z_2,\dots,z_n) = P(X_1 \leq x_1 | Z_1=1, Z_2=z_2,\dots,Z_n=z_n) \]

根据条件概率的定义，将\(Z_1=1\)替换为\(X_1>0\)，得：

\[F(x_1 | z_1=1, z_2,\dots,z_n) = \frac{P(X_1 \leq x_1, X_1>0 | Z_2=z_2,\dots,Z_n=z_n)}{P(X_1>0 | Z_2=z_2,\dots,Z_n=z_n)} \]

分母就是\(p_z\)，分子是\(X_1\)在\((0,x_1]\)上的条件概率积分，因此：

\[F(x_1 | z_1=1, z_2,\dots,z_n) = p_z^{-1} \int_{0}^{x_1} p(u|z_2,\dots,z_n) du \cdot I\{x_1>0\} \]

对分布函数关于\(x_1\)求导，即可得到条件密度：

\[p(x_1 | z_1=1, z_2,\dots,z_n) = p_z^{-1} p(x_1|z_2,\dots,z_n) I\{x_1>0\} \]

\(z_1=-1\)的情形同理可证，引理4.3.6得证。

三、核心定理：Pitman积分公式（尺度参数最优同变估计）

定理4.3.2 Pitman积分公式

定理内容：设\(X=(X_1,\dots,X_n)^T\)服从尺度参数分布族，密度为：

\[p(x,\sigma) = \frac{1}{\sigma^n} f\left( \frac{x}{\sigma} \right) = \frac{1}{\sigma^n} f\left( \frac{x_1}{\sigma}, \frac{x_2}{\sigma}, \dots, \frac{x_n}{\sigma} \right), \quad \sigma>0 \]

则在相对均方损失下，\(\sigma\)的最优同变估计可表示为：

\[\widehat{\sigma}^*(X) = \frac{\int_{0}^{\infty} \sigma^{-2} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-3} p(X,\sigma) d\sigma} = \frac{\int_{0}^{\infty} \sigma^{-2} \cdot \frac{1}{\sigma^n} f\left( \frac{X}{\sigma} \right) d\sigma}{\int_{0}^{\infty} \sigma^{-3} \cdot \frac{1}{\sigma^n} f\left( \frac{X}{\sigma} \right) d\sigma} \tag{4.3.10} \]

定理意义：这是尺度参数最优同变估计的终极实用结论。它彻底摆脱了最大不变量、条件分布、条件期望的复杂计算，仅需将样本密度\(p(X,\sigma)\)代入关于\(\sigma\)的积分，即可直接得到最优同变估计，计算过程完全标准化，适用于所有尺度参数分布族。

定理4.3.2的严格证明

我们的证明思路是：从最优同变估计的条件期望形式出发，代入两个引理的条件分布，通过变量替换将条件期望转化为关于\(\sigma\)的积分，最终得到Pitman积分公式。分为4个核心步骤：

步骤1：写出条件期望的积分形式

根据上一节的推论2，\(\sigma\)的最优同变估计为：

\[\widehat{\sigma}^*(X) = \frac{E_1\left( |X_1| \mid Z \right)}{E_1\left( X_1^2 \mid Z \right)} \cdot |X_1| \]

我们先处理\(Z_1=1\)（即\(X_1>0\)）的情形，此时\(|X_1|=X_1\)，\(Z_1=1\)，根据条件期望的定义，\(E_1(|X_1||Z=z) = \int_{-\infty}^{\infty} |x_1| p(x_1|z_1,z_2,\dots,z_n) dx_1\)。

代入引理4.3.6的条件分布（\(z_1=1\)，\(x_1>0\)），得：

\[E_1(|X_1||Z=z) = \int_{0}^{\infty} x_1 \cdot p_z^{-1} p(x_1|z_2,\dots,z_n) dx_1 \]

再代入引理4.3.5的\(p(x_1|z_2,\dots,z_n)\)，得：

\[E_1(|X_1||Z=z) = p_z^{-1} \cdot \frac{\int_{0}^{\infty} x_1 \cdot |x_1|^{n-1} f(x_1,x_1 z_2,\dots,x_1 z_n) dx_1}{\int_{-\infty}^{\infty} |u|^{n-1} f(u,u z_2,\dots,u z_n) du} \]

由于\(x_1>0\)，\(|x_1|=x_1\)，因此\(x_1 \cdot |x_1|^{n-1} = x_1^n\)，化简得：

\[E_1(|X_1||Z=z) = p_z^{-1} \cdot \frac{\int_{0}^{\infty} x_1^n f(x_1,x_1 z_2,\dots,x_1 z_n) dx_1}{\int_{-\infty}^{\infty} |u|^{n-1} f(u,u z_2,\dots,u z_n) du} \tag{1} \]

同理，计算\(E_1(X_1^2|Z=z)\)，此时\(x_1^2 \cdot |x_1|^{n-1} = x_1^{n+1}\)，得：

\[E_1(X_1^2|Z=z) = p_z^{-1} \cdot \frac{\int_{0}^{\infty} x_1^{n+1} f(x_1,x_1 z_2,\dots,x_1 z_n) dx_1}{\int_{-\infty}^{\infty} |u|^{n-1} f(u,u z_2,\dots,u z_n) du} \tag{2} \]

步骤2：约分化简，得到条件期望的比值

将(1)式和(2)式相除，会发现\(p_z^{-1}\)和分母的积分项完全约去，得到：

\[\frac{E_1(|X_1||Z)}{E_1(X_1^2|Z)} = \frac{\int_{0}^{\infty} u^n f(u, u Z_2, \dots, u Z_n) du}{\int_{0}^{\infty} u^{n+1} f(u, u Z_2, \dots, u Z_n) du} \tag{4.3.11} \]

这里我们将积分哑变量\(x_1\)替换为\(u\)，避免和样本\(X\)混淆。

步骤3：核心变量替换，将积分转化为关于\(\sigma\)的形式

这是证明中最关键的一步，我们的目标是将\(f(u, u Z_2, \dots, u Z_n)\)转化为仅关于样本\(X\)的形式。

首先，根据\(Z_i\)的定义，\(Z_i = \frac{X_i}{X_1} (i≥2)\)，因此\(u Z_i = u \cdot \frac{X_i}{X_1}\)。我们做变量替换：

\[u = \frac{X_1}{t}, \quad \text{即} \quad t = \frac{X_1}{u} \]

其中\(u>0\)，\(X_1>0\)（\(Z_1=1\)的情形），因此\(t>0\)。

对\(u\)求微分，得：

\[du = -\frac{X_1}{t^2} dt \]

积分上下限：当\(u=0\)时，\(t \to +\infty\)；当\(u \to +\infty\)时，\(t=0\)，因此积分上下限交换后，负号抵消。

首先化简\(f\)的自变量：

\[f(u, u Z_2, \dots, u Z_n) = f\left( \frac{X_1}{t}, \frac{X_1}{t} \cdot \frac{X_2}{X_1}, \dots, \frac{X_1}{t} \cdot \frac{X_n}{X_1} \right) = f\left( \frac{X_1}{t}, \frac{X_2}{t}, \dots, \frac{X_n}{t} \right) = f\left( \frac{X}{t} \right) \]

接下来，将变量替换代入(4.3.11)式的分子：

\[\int_{0}^{\infty} u^n f(u, u Z_2, \dots, u Z_n) du = \int_{+\infty}^{0} \left( \frac{X_1}{t} \right)^n f\left( \frac{X}{t} \right) \cdot \left( -\frac{X_1}{t^2} dt \right) \]

交换积分上下限，消去负号：

\[= \int_{0}^{\infty} \frac{X_1^n}{t^n} \cdot \frac{X_1}{t^2} f\left( \frac{X}{t} \right) dt = X_1^{n+1} \int_{0}^{\infty} t^{-(n+2)} f\left( \frac{X}{t} \right) dt \]

同理，代入(4.3.11)式的分母：

\[\int_{0}^{\infty} u^{n+1} f(u, u Z_2, \dots, u Z_n) du = \int_{0}^{\infty} \left( \frac{X_1}{t} \right)^{n+1} f\left( \frac{X}{t} \right) \cdot \frac{X_1}{t^2} dt = X_1^{n+2} \int_{0}^{\infty} t^{-(n+3)} f\left( \frac{X}{t} \right) dt \]

步骤4：约分化简，得到Pitman积分公式

将分子和分母代入(4.3.11)式，\(X_1\)的幂次约去，得：

\[\frac{E_1(|X_1||Z)}{E_1(X_1^2|Z)} = \frac{X_1^{n+1} \int_{0}^{\infty} t^{-(n+2)} f\left( \frac{X}{t} \right) dt}{X_1^{n+2} \int_{0}^{\infty} t^{-(n+3)} f\left( \frac{X}{t} \right) dt} = \frac{1}{X_1} \cdot \frac{\int_{0}^{\infty} t^{-(n+2)} f\left( \frac{X}{t} \right) dt}{\int_{0}^{\infty} t^{-(n+3)} f\left( \frac{X}{t} \right) dt} \]

将该比值代入最优同变估计的表达式，此时\(|X_1|=X_1\)，因此\(X_1\)和\(1/X_1\)完全约去，得：

\[\widehat{\sigma}^*(X) = \frac{\int_{0}^{\infty} t^{-(n+2)} f\left( \frac{X}{t} \right) dt}{\int_{0}^{\infty} t^{-(n+3)} f\left( \frac{X}{t} \right) dt} \]

注意到积分变量\(t\)是哑变量，我们将其替换为\(\sigma\)，同时结合尺度参数分布族的密度\(p(X,\sigma) = \frac{1}{\sigma^n} f\left( \frac{X}{\sigma} \right)\)，即\(f\left( \frac{X}{\sigma} \right) = \sigma^n p(X,\sigma)\)，代入上式：

分子：\(\int_{0}^{\infty} \sigma^{-(n+2)} \cdot \sigma^n p(X,\sigma) d\sigma = \int_{0}^{\infty} \sigma^{-2} p(X,\sigma) d\sigma\)
分母：\(\int_{0}^{\infty} \sigma^{-(n+3)} \cdot \sigma^n p(X,\sigma) d\sigma = \int_{0}^{\infty} \sigma^{-3} p(X,\sigma) d\sigma\)

因此得到：

\[\widehat{\sigma}^*(X) = \frac{\int_{0}^{\infty} \sigma^{-2} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-3} p(X,\sigma) d\sigma} \]

对于\(Z_1=-1\)（即\(X_1<0\)）的情形，\(|X_1|=-X_1\)，重复上述推导过程，最终会得到完全相同的公式，因此Pitman积分公式对所有样本都成立，定理4.3.2得证。

四、Pitman积分公式的推广：\(\sigma^r\)的最优同变估计

推论：\(\sigma^r\)的Pitman积分公式

推论内容：对于尺度参数的幂次\(\sigma^r\)（\(r\)为任意实数），在相对均方损失下，其最优同变估计可表示为：

\[\delta^*(X) = \frac{\int_{0}^{\infty} \sigma^{-(r+1)} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-(2r+1)} p(X,\sigma) d\sigma} \]

推论意义：将Pitman积分公式推广到任意幂次的尺度参数估计，覆盖了方差\(\sigma^2\)（\(r=2\)）、精度\(1/\sigma^2\)（\(r=-2\)）、标准差\(\sigma\)（\(r=1\)）等所有实际应用场景，是最通用的形式。

推论的证明思路

我们取\(\sigma^r\)的一个初始同变估计为\(|X_1|^r\)，根据上一节的推论3，\(\sigma^r\)的最优同变估计为：

\[\delta^*(X) = \frac{E_1\left( |X_1|^r \mid Z \right)}{E_1\left( |X_1|^{2r} \mid Z \right)} \cdot |X_1|^r \]

重复定理4.3.2的推导过程，仅需将积分中的\(u^n\)替换为\(u^{n+r-1}\)，\(u^{n+1}\)替换为\(u^{n+2r-1}\)，最终通过相同的变量替换，即可得到上述推广公式，推导过程完全一致，此处不再赘述。

五、Pitman积分公式的应用实例

我们用经典例题验证Pitman积分公式的便利性，对比之前的方法，体会其标准化计算的优势。

例1：指数分布\(Exp(1/\sigma)\)的\(\sigma\)最优同变估计

指数分布的样本联合密度为：

\[p(X,\sigma) = \prod_{i=1}^n \frac{1}{\sigma} e^{-X_i/\sigma} I\{X_i≥0\} = \frac{1}{\sigma^n} e^{-\frac{T}{\sigma}} I\{X_{(1)}≥0\}, \quad T=\sum_{i=1}^n X_i \]

代入Pitman积分公式（\(r=1\)）：

分子：\(\int_{0}^{\infty} \sigma^{-2} \cdot \frac{1}{\sigma^n} e^{-\frac{T}{\sigma}} d\sigma = \int_{0}^{\infty} \sigma^{-(n+2)} e^{-\frac{T}{\sigma}} d\sigma\)
分母：\(\int_{0}^{\infty} \sigma^{-3} \cdot \frac{1}{\sigma^n} e^{-\frac{T}{\sigma}} d\sigma = \int_{0}^{\infty} \sigma^{-(n+3)} e^{-\frac{T}{\sigma}} d\sigma\)

做变量替换\(u = \frac{T}{\sigma}\)，即\(\sigma = \frac{T}{u}\)，\(d\sigma = -\frac{T}{u^2} du\)，代入计算：

分子：\(T^{-(n+1)} \int_{0}^{\infty} u^{n} e^{-u} du = T^{-(n+1)} \Gamma(n+1)\)
分母：\(T^{-(n+2)} \int_{0}^{\infty} u^{n+1} e^{-u} du = T^{-(n+2)} \Gamma(n+2)\)

因此最优估计为：

\[\widehat{\sigma}^*(X) = T \cdot \frac{\Gamma(n+1)}{\Gamma(n+2)} = \frac{T}{n+1} \]

和之前用完备充分统计量得到的结果完全一致，且无需寻找充分统计量，计算过程完全标准化。

例2：正态分布\(N(0,\sigma^2)\)的\(\sigma^2\)最优同变估计

正态分布\(N(0,\sigma^2)\)的样本联合密度为：

\[p(X,\sigma) = \frac{1}{(2\pi)^{n/2} \sigma^n} e^{-\frac{T}{2\sigma^2}}, \quad T=\sum_{i=1}^n X_i^2 \]

估计\(\sigma^2\)即\(r=2\)，代入推广的Pitman积分公式：

分子：\(\int_{0}^{\infty} \sigma^{-(2+1)} p(X,\sigma) d\sigma = \frac{1}{(2\pi)^{n/2}} \int_{0}^{\infty} \sigma^{-(n+3)} e^{-\frac{T}{2\sigma^2}} d\sigma\)
分母：\(\int_{0}^{\infty} \sigma^{-(4+1)} p(X,\sigma) d\sigma = \frac{1}{(2\pi)^{n/2}} \int_{0}^{\infty} \sigma^{-(n+5)} e^{-\frac{T}{2\sigma^2}} d\sigma\)

做变量替换\(u = \frac{T}{2\sigma^2}\)，计算后可得：

\[\widehat{\sigma^2}^*(X) = \frac{T}{n+2} \]

和之前的结论完全一致，再次验证了公式的有效性。

六、核心知识点归纳总结表

表1 核心引理汇总

引理编号	核心结论	核心作用
4.3.5	给出\(X_1\|Z_2,\dots,Z_n\)的条件分布，核心是n维变换的雅可比行列式计算	解决连续型最大不变量对应的条件分布求解问题
4.3.6	给出\(X_1\|Z_1,Z_2,\dots,Z_n\)的条件分布，处理离散分量\(Z_1=\pm1\)的截断效应	得到完整最大不变量对应的条件分布，为条件期望计算奠定基础

表2 核心定理与推论汇总

定理/推论	核心公式	适用场景	核心优势
Pitman积分公式（\(\sigma\)）	\(\widehat{\sigma}^*(X) = \frac{\int_{0}^{\infty} \sigma^{-2} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-3} p(X,\sigma) d\sigma}\)	尺度参数\(\sigma\)的最优同变估计	无需推导最大不变量、条件分布，仅需样本密度积分即可求解
推广公式（\(\sigma^r\)）	\(\delta^*(X) = \frac{\int_{0}^{\infty} \sigma^{-(r+1)} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-(2r+1)} p(X,\sigma) d\sigma}\)	任意幂次尺度参数\(\sigma^r\)的最优同变估计	通用形式，覆盖方差、精度、标准差等所有实际场景

表3 关键变换与技巧汇总

变换/技巧	应用场景	核心作用
n维线性变换与雅可比行列式	引理4.3.5的联合分布推导	将\((X_1,\dots,X_n)\)变换为\((X_1,Z_2,\dots,Z_n)\)，得到联合密度
变量替换\(u=X_1/t\)	Pitman积分公式的核心推导	将积分中的\(f(u,uZ_2,\dots,uZ_n)\)转化为\(f(X/t)\)，消去最大不变量
变量替换\(u=T/\sigma\)	积分计算	将指数型积分转化为Gamma函数，快速得到积分结果

七、资深研究员的教学总结

Pitman积分公式的本质：它是尺度参数分布族的对称性与贝叶斯思想结合的产物，等价于取\(\sigma\)的无信息先验\(\pi(\sigma)=1/\sigma\)时，\(\sigma\)的后验期望，这也是其形式简洁、计算标准化的深层原因。
计算的标准化优势：无论是什么尺度参数分布，求解最优同变估计的步骤完全固定：①写出样本联合密度\(p(X,\sigma)\)；②代入Pitman积分公式；③通过变量替换计算积分。无需针对不同分布寻找充分统计量，大幅降低了学习和应用的门槛。
与Pitman定理的关系：Pitman积分公式是上一节Pitman定理的显式化，二者理论等价，前者适合实际计算，后者适合理论推导，互为补充。
应用注意事项：使用公式时需保证分子、分母的积分收敛，绝大多数常见的尺度参数分布（指数、正态、均匀、瑞利等）都满足该条件。

尺度参数最优同变估计例题全流程详解

我们将基于上一节推导的Pitman积分公式，完整演示3个典型分布的最优同变估计求解过程，拆解每一步的逻辑细节、计算技巧与结果意义。

首先回顾核心工具：对于尺度参数\(\sigma\)（例题中记为\(\theta\)），在相对均方损失下，其最优同变估计的Pitman积分公式为：

\[\widehat{\sigma}^*(X) = \frac{\int_{0}^{\infty} \sigma^{-2} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-3} p(X,\sigma) d\sigma} \tag{4.3.10} \]

其中\(p(X,\sigma)\)为样本联合概率密度，该公式的核心优势是无需推导最大不变量、条件分布，仅通过密度积分即可标准化求解最优估计。

例4.3.5 均匀分布\(R(0,\theta)\)的\(\theta\)最优同变估计

步骤1：验证尺度参数分布族

均匀分布\(X_1 \sim R(0,\theta)\)的单样本密度为：

\[p(x_1,\theta) = \frac{1}{\theta} I\{0 \leq x_1 \leq \theta\} = \frac{1}{\theta} f\left( \frac{x_1}{\theta} \right) \]

其中\(f(t)=I\{0 \leq t \leq 1\}\)，完全符合尺度参数分布族的标准形式，\(\theta\)为尺度参数。

步骤2：写出样本联合密度

设\(X_1,\dots,X_n\)独立同分布，记次序统计量\(X_{(n)} = \max\{X_1,\dots,X_n\}\)（样本最大值）、\(X_{(1)} = \min\{X_1,\dots,X_n\}\)（样本最小值），则联合密度为：

\[p(X,\theta) = \prod_{i=1}^n \frac{1}{\theta} I\{0 \leq X_i \leq \theta\} = \frac{1}{\theta^n} I\{0 \leq X_{(1)}\} I\{X_{(n)} \leq \theta\} \]

核心逻辑：所有样本落在\([0,\theta]\)内，等价于「样本最小值非负、样本最大值不超过\(\theta\)」，这是后续确定积分上下限的关键。

步骤3：代入Pitman公式，化简表达式

将联合密度代入(4.3.10)式，分子分母的公共常数项\(\frac{1}{\theta^n}\)可直接约去：

\[\widehat{\theta}^*(X) = \frac{\int_{0}^{\infty} \theta^{-2} \cdot \frac{1}{\theta^n} I\{0 \leq X_{(n)} \leq \theta\} d\theta}{\int_{0}^{\infty} \theta^{-3} \cdot \frac{1}{\theta^n} I\{0 \leq X_{(n)} \leq \theta\} d\theta} = \frac{\int_{0}^{\infty} \theta^{-(n+2)} I\{X_{(n)} \leq \theta\} d\theta}{\int_{0}^{\infty} \theta^{-(n+3)} I\{X_{(n)} \leq \theta\} d\theta} \]

示性函数处理：\(I\{X_{(n)} \leq \theta\}\)表示仅当\(\theta \geq X_{(n)}\)时，被积函数非零，因此积分上下限从\([0,+\infty)\)简化为\([X_{(n)}, +\infty)\)：

\[\widehat{\theta}^*(X) = \frac{\int_{X_{(n)}}^{\infty} \theta^{-(n+2)} d\theta}{\int_{X_{(n)}}^{\infty} \theta^{-(n+3)} d\theta} \]

步骤4：计算幂函数积分

对于无穷区间的幂函数积分，有通用公式：\(\int_{a}^{\infty} x^k dx = \frac{a^{k+1}}{-(k+1)}\)（要求\(k < -1\)，此处\(-(n+2) < -1\)、\(-(n+3) < -1\)，积分收敛）。

分子积分：\(\int_{X_{(n)}}^{\infty} \theta^{-(n+2)} d\theta = \frac{X_{(n)}^{-(n+1)}}{n+1}\)
分母积分：\(\int_{X_{(n)}}^{\infty} \theta^{-(n+3)} d\theta = \frac{X_{(n)}^{-(n+2)}}{n+2}\)

步骤5：化简得到最终结果

分子分母相除，\(X_{(n)}\)的幂次约去，得到：

\[\widehat{\theta}^*(X) = \frac{\frac{X_{(n)}^{-(n+1)}}{n+1}}{\frac{X_{(n)}^{-(n+2)}}{n+2}} = \frac{n+2}{n+1} X_{(n)} \]

结果解读

\(\theta\)的最大似然估计（MLE）为\(X_{(n)}\)，无偏估计为\(\frac{n+1}{n}X_{(n)}\)，二者均为同变估计；
在相对均方损失下，我们得到的最优同变估计\(\frac{n+2}{n+1}X_{(n)}\)风险更小，优于MLE和无偏估计。

例4.3.6 拉普拉斯（Laplace）分布的\(\sigma\)最优同变估计

步骤1：验证尺度参数分布族

拉普拉斯分布（双指数分布）的单样本密度为：

\[p(x_1,\sigma) = \frac{1}{2\sigma} e^{-\frac{|x_1|}{\sigma}} = \frac{1}{\sigma} f\left( \frac{x_1}{\sigma} \right) \]

其中\(f(t) = \frac{1}{2}e^{-|t|}\)，符合尺度参数分布族的标准形式，\(\sigma\)为尺度参数。

步骤2：写出样本联合密度

设\(X_1,\dots,X_n\)独立同分布，记\(A = \sum_{i=1}^n |X_i|\)（样本绝对值和），则联合密度为：

\[p(X,\sigma) = \prod_{i=1}^n \frac{1}{2\sigma} e^{-\frac{|X_i|}{\sigma}} = \frac{1}{(2\sigma)^n} e^{-\frac{1}{\sigma}\sum_{i=1}^n |X_i|} = \frac{1}{(2\sigma)^n} e^{-\frac{A}{\sigma}} \]

步骤3：代入Pitman公式，化简表达式

将联合密度代入(4.3.10)式，分子分母的公共常数项\(\frac{1}{2^n}\)可直接约去：

\[\widehat{\sigma}^*(X) = \frac{\int_{0}^{\infty} \sigma^{-2} \cdot \frac{1}{(2\sigma)^n} e^{-\frac{A}{\sigma}} d\sigma}{\int_{0}^{\infty} \sigma^{-3} \cdot \frac{1}{(2\sigma)^n} e^{-\frac{A}{\sigma}} d\sigma} = \frac{\int_{0}^{\infty} \sigma^{-(n+2)} e^{-\frac{A}{\sigma}} d\sigma}{\int_{0}^{\infty} \sigma^{-(n+3)} e^{-\frac{A}{\sigma}} d\sigma} \]

步骤4：变量替换，转化为Gamma函数积分

对于形如\(\int_{0}^{\infty} \sigma^k e^{-\frac{c}{\sigma}} d\sigma\)的积分，标准处理方法是做倒数变量替换：令\(t = \frac{1}{\sigma}\)，即\(\sigma = \frac{1}{t}\)，则\(d\sigma = -\frac{1}{t^2} dt\)，积分上下限从\(\sigma:0\to\infty\)变为\(t:\infty\to0\)，交换上下限消去负号。

分子积分替换：
\[\int_{0}^{\infty} \sigma^{-(n+2)} e^{-\frac{A}{\sigma}} d\sigma = \int_{0}^{\infty} t^{n+2} e^{-A t} \cdot \frac{1}{t^2} dt = \int_{0}^{\infty} t^n e^{-A t} dt \]
分母积分替换：
\[\int_{0}^{\infty} \sigma^{-(n+3)} e^{-\frac{A}{\sigma}} d\sigma = \int_{0}^{\infty} t^{n+3} e^{-A t} \cdot \frac{1}{t^2} dt = \int_{0}^{\infty} t^{n+1} e^{-A t} dt \]

此时积分变为Gamma函数的标准形式：\(\int_{0}^{\infty} t^{k} e^{-c t} dt = \frac{\Gamma(k+1)}{c^{k+1}}\)，其中Gamma函数满足核心性质\(\Gamma(k+1)=k\Gamma(k)\)，对正整数\(n\)有\(\Gamma(n+1)=n!\)。

分子积分结果：\(\int_{0}^{\infty} t^n e^{-A t} dt = \frac{\Gamma(n+1)}{A^{n+1}}\)
分母积分结果：\(\int_{0}^{\infty} t^{n+1} e^{-A t} dt = \frac{\Gamma(n+2)}{A^{n+2}}\)

步骤5：化简得到最终结果

分子分母相除，\(A\)的幂次约去，结合Gamma函数性质\(\Gamma(n+2)=(n+1)\Gamma(n+1)\)，得到：

\[\widehat{\sigma}^*(X) = \frac{\frac{\Gamma(n+1)}{A^{n+1}}}{\frac{\Gamma(n+2)}{A^{n+2}}} = A \cdot \frac{\Gamma(n+1)}{\Gamma(n+2)} = \frac{A}{n+1} = \frac{1}{n+1}\sum_{i=1}^n |X_i| \]

结果解读

拉普拉斯分布中，\(\sigma\)的MLE和无偏估计均为\(\frac{1}{n}\sum_{i=1}^n |X_i|\)；
最优同变估计为\(\frac{1}{n+1}\sum_{i=1}^n |X_i|\)，在相对均方损失下风险更小，优于MLE和无偏估计。

例4.3.7 Pareto型分布的\(\theta\)最优同变估计

步骤1：验证尺度参数分布族

单样本密度为\(p(x_1,\theta) = 2\theta^2 x_1^{-3} I\{x_1 \geq \theta > 0\}\)，将其改写为尺度参数标准形式：

\[p(x_1,\theta) = \frac{1}{\theta} \cdot 2 \left( \frac{x_1}{\theta} \right)^{-3} I\left\{ \frac{x_1}{\theta} \geq 1 \right\} = \frac{1}{\theta} f\left( \frac{x_1}{\theta} \right) \]

其中\(f(t)=2t^{-3}I\{t\geq1\}\)，符合尺度参数分布族的标准形式，\(\theta\)为尺度参数。

步骤2：写出样本联合密度

设\(X_1,\dots,X_n\)独立同分布，记次序统计量\(X_{(1)} = \min\{X_1,\dots,X_n\}\)（样本最小值），则联合密度为：

\[p(X,\theta) = \prod_{i=1}^n 2\theta^2 X_i^{-3} I\{X_i \geq \theta\} = 2^n \theta^{2n} \left( \prod_{i=1}^n X_i^{-3} \right) I\{X_{(1)} \geq \theta > 0\} \]

核心逻辑：所有样本大于等于\(\theta\)，等价于「样本最小值\(X_{(1)} \geq \theta\)」，这是确定积分上下限的关键。

步骤3：代入Pitman公式，化简表达式

将联合密度代入(4.3.10)式，分子分母的公共常数项\(2^n \prod_{i=1}^n X_i^{-3}\)可直接约去：

\[\widehat{\theta}^*(X) = \frac{\int_{0}^{\infty} \theta^{-2} \cdot 2^n \theta^{2n} \prod X_i^{-3} I\{X_{(1)} \geq \theta\} d\theta}{\int_{0}^{\infty} \theta^{-3} \cdot 2^n \theta^{2n} \prod X_i^{-3} I\{X_{(1)} \geq \theta\} d\theta} = \frac{\int_{0}^{\infty} \theta^{2n-2} I\{X_{(1)} \geq \theta\} d\theta}{\int_{0}^{\infty} \theta^{2n-3} I\{X_{(1)} \geq \theta\} d\theta} \]

示性函数处理：\(I\{X_{(1)} \geq \theta\}\)表示仅当\(\theta \leq X_{(1)}\)时，被积函数非零，因此积分上下限从\([0,+\infty)\)简化为\([0, X_{(1)}]\)：

\[\widehat{\theta}^*(X) = \frac{\int_{0}^{X_{(1)}} \theta^{2n-2} d\theta}{\int_{0}^{X_{(1)}} \theta^{2n-3} d\theta} \]

步骤4：计算幂函数积分

对于有限区间的幂函数积分，通用公式为：\(\int_{0}^{a} x^k dx = \frac{a^{k+1}}{k+1}\)（要求\(k > -1\)，此处\(2n-2 > -1\)、\(2n-3 > -1\)，\(n\geq1\)时积分收敛）。

分子积分：\(\int_{0}^{X_{(1)}} \theta^{2n-2} d\theta = \frac{X_{(1)}^{2n-1}}{2n-1}\)
分母积分：\(\int_{0}^{X_{(1)}} \theta^{2n-3} d\theta = \frac{X_{(1)}^{2n-2}}{2n-2}\)

步骤5：化简得到最终结果

分子分母相除，\(X_{(1)}\)的幂次约去，得到：

\[\widehat{\theta}^*(X) = \frac{\frac{X_{(1)}^{2n-1}}{2n-1}}{\frac{X_{(1)}^{2n-2}}{2n-2}} = \frac{2n-2}{2n-1} X_{(1)} \]

结果解读

该分布中\(\theta\)的MLE为\(X_{(1)}\)，无偏估计为\(\frac{2n-1}{2n-2}X_{(1)}\)；
最优同变估计为\(\frac{2n-2}{2n-1}X_{(1)}\)，在相对均方损失下风险更小，优于MLE和无偏估计。

核心知识点归纳总结表

例题编号	分布类型	待估尺度参数	联合密度核心项	最优同变估计	最大似然估计(MLE)	无偏估计
4.3.5	均匀分布\(R(0,\theta)\)	\(\theta\)	\(\frac{1}{\theta^n}I\{X_{(n)}\leq\theta\}\)	\(\frac{n+2}{n+1}X_{(n)}\)	\(X_{(n)}\)	\(\frac{n+1}{n}X_{(n)}\)
4.3.6	拉普拉斯分布\(\frac{1}{2\sigma}e^{-\|x\|/\sigma}\)	\(\sigma\)	\(\frac{1}{\sigma^n}e^{-\frac{1}{\sigma}\sum\|X_i\|}\)	\(\frac{1}{n+1}\sum_{i=1}^n \|X_i\|\)	\(\frac{1}{n}\sum_{i=1}^n \|X_i\|\)	\(\frac{1}{n}\sum_{i=1}^n \|X_i\|\)
4.3.7	Pareto型分布\(2\theta^2x^{-3}I\{x\geq\theta\}\)	\(\theta\)	\(\theta^{2n}I\{X_{(1)}\geq\theta\}\)	\(\frac{2n-2}{2n-1}X_{(1)}\)	\(X_{(1)}\)	\(\frac{2n-1}{2n-2}X_{(1)}\)

教学总结

标准化求解流程：所有尺度参数分布族的最优同变估计，都遵循「验证尺度分布→写联合密度→代入Pitman公式→处理示性函数定积分限→计算积分→化简结果」的固定流程，无需针对不同分布设计特殊方法，这是Pitman积分公式的核心价值。
示性函数是关键细节：带区间约束的分布（均匀、Pareto），核心是通过次序统计量将示性函数转化为积分的有效区间，这是初学者最容易出错的环节。
积分计算通用技巧：指数型积分（拉普拉斯、指数、正态）用倒数变量替换转化为Gamma函数，幂函数型积分（均匀、Pareto）直接用幂函数积分公式，覆盖了绝大多数常见分布的计算场景。
最优性的本质：最优同变估计通过牺牲无偏性，换来了相对均方损失下的最小风险，是统计决策中「偏差-方差权衡」的经典体现；若实际应用关注相对误差而非绝对无偏，最优同变估计是更优的选择。

posted on 2026-02-25 23:35 Indian_Mysore 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

昆仑山:眼中无形心中有穴之穴人合一

4.3.1 尺度参数分布族的相似变换群与同变估计

尺度参数分布族的相似变换群与同变估计 详细讲解与推导

一、前置基础：尺度参数分布族的定义与核心性质

1. 尺度参数分布族的定义

2. 核心性质的严格证明

二、相似变换群的定义与不变分布族证明

1. 样本空间的相似变换群

2. 参数空间的导出群与不变分布族证明

步骤1：推导变换后样本的分布

步骤2：定义参数空间的导出群

步骤3：不变分布族的结论

三、决策空间的导出群与同变估计条件

情况1：估计参数\(\sigma\)

1. 决策空间的导出群

2. 同变条件的推导与化简

3. 同变估计的一般形式

情况2：估计参数\(\sigma^r\)（\(r\)为任意实数）

1. 决策空间的导出群

2. 同变条件的推导与化简

3. 同变估计的一般形式

四、相似同变损失函数

情况1：估计\(\sigma\)时的同变损失函数

化简与一般形式

常用同变损失函数

情况2：估计\(\sigma^r\)时的同变损失函数

化简与一般形式

常用同变损失函数

五、核心知识点归纳总结表

六、资深研究员的经验提示

尺度参数的最优同变估计 全知识点详解与严格推导

一、章节核心目标与逻辑框架

二、核心概念：相似不变量与最大不变量

1. 相似不变量的定义

2. 最大不变量的定义

三、核心引理的详细讲解与严格证明

引理4.3.1 同变估计与不变量的对应关系

引理4.3.2 不变量的结构与最大不变量

引理4.3.3 所有同变估计的统一表达式

引理4.3.4 均方误差的最小化引理

四、核心定理：Pitman定理（尺度参数最优同变估计）

定理内容

定理意义

严格证明

1. 最优性证明

2. 唯一性证明

五、Pitman定理的实用推论

推论1 完备充分统计量下的简化形式

推论2 最简初始估计的形式

推论3 尺度参数幂次\(\sigma^r\)的最优同变估计

六、经典例题详解

例4.3.1 指数分布的尺度参数最优同变估计

例4.3.2 均匀分布\(R(0,\theta)\)的尺度参数最优同变估计

例4.3.3 正态分布\(N(0,\sigma^2)\)的方差最优同变估计

七、核心知识点归纳总结表

表1 核心概念定义表

表2 核心引理汇总表

表3 核心定理与推论汇总表

表4 经典分布最优同变估计结果汇总表

八、资深研究员的教学总结

Pitman积分公式 全知识点详解与严格推导

一、本节的核心逻辑铺垫

二、核心引理的详细讲解与严格证明

引理4.3.5 给定\(Z_2,\dots,Z_n\)时\(X_1\)的条件分布

引理4.3.5的严格证明

步骤1：构造可逆变换，计算雅可比行列式

步骤2：推导\((Y_1,Y_2,\dots,Y_n)\)的联合密度

步骤3：推导条件分布

引理4.3.6 给定完整最大不变量\(Z=(Z_1,Z_2,\dots,Z_n)\)时\(X_1\)的条件分布

引理4.3.6的严格证明

三、核心定理：Pitman积分公式（尺度参数最优同变估计）

定理4.3.2 Pitman积分公式

定理4.3.2的严格证明

步骤1：写出条件期望的积分形式

步骤2：约分化简，得到条件期望的比值

步骤3：核心变量替换，将积分转化为关于\(\sigma\)的形式

步骤4：约分化简，得到Pitman积分公式

四、Pitman积分公式的推广：\(\sigma^r\)的最优同变估计

推论：\(\sigma^r\)的Pitman积分公式

推论的证明思路

尺度参数分布族的相似变换群与同变估计详细讲解与推导

尺度参数的最优同变估计全知识点详解与严格推导

Pitman积分公式全知识点详解与严格推导

尺度参数最优同变估计例题全流程详解