昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

4.3.1 尺度参数分布族的相似变换群与同变估计

尺度参数分布族的相似变换群与同变估计 详细讲解与推导

我将以多年数理统计研究与教学的经验,从基础定义出发,逐步完成全流程推导,拆解核心逻辑,最后进行结构化归纳总结。

一、前置基础:尺度参数分布族的定义与核心性质

1. 尺度参数分布族的定义

对于n维随机变量\(X\),若其概率密度函数可表示为:

\[p(x,\sigma) = \frac{1}{\sigma^n} f\left( \frac{x_1}{\sigma}, \frac{x_2}{\sigma}, \dots, \frac{x_n}{\sigma} \right) = \frac{1}{\sigma^n} f\left( \frac{x}{\sigma} \right) \]

其中参数\(\sigma \in \Theta = (0, +\infty)\),则称该分布族为尺度参数分布族\(\sigma\)为尺度参数。

  • \(\sigma=1\)时,\(X \sim P_1\),密度为\(f(x)\),称为该分布族的标准分布
  • 典型例子:正态分布\(N(0,\sigma^2)\)、均匀分布\(R(0,\sigma)\),均严格符合上述形式。

2. 核心性质的严格证明

性质:若\(X \sim P_\sigma\),则\(Y = X/\sigma \sim P_1\)(与\(\sigma\)无关的标准分布);反之,若\(Y \sim P_1\),则\(X = \sigma Y \sim P_\sigma\)

证明
利用n维随机变量线性变换的密度公式:若\(Y = g(X)\),则\(p_Y(y) = p_X(g^{-1}(y)) \cdot |J|\),其中\(|J|\)为逆变换的雅可比行列式。

  1. 正向推导:\(Y = X/\sigma\),逆变换为\(X = \sigma Y\),雅可比矩阵为对角矩阵,对角元均为\(\sigma\),故\(|J| = \sigma^n\)
    代入\(X\)的密度:

    \[p_Y(y) = p_X(\sigma y) \cdot \sigma^n = \frac{1}{\sigma^n}f\left( \frac{\sigma y}{\sigma} \right) \cdot \sigma^n = f(y) \]

    \(Y \sim P_1\),与\(\sigma\)完全无关。

  2. 反向推导:\(X = \sigma Y\),逆变换为\(Y = X/\sigma\),雅可比行列式\(|J| = 1/\sigma^n\)
    代入\(Y\)的密度\(f(y)\)

    \[p_X(x) = f\left( \frac{x}{\sigma} \right) \cdot \frac{1}{\sigma^n} = \frac{1}{\sigma^n}f\left( \frac{x}{\sigma} \right) \]

    \(X \sim P_\sigma\),证毕。

该性质是整个同变估计体系的核心基石:尺度参数的影响仅体现为样本的尺度缩放,可通过除以\(\sigma\)完全消除,转化为无未知参数的标准分布问题。

二、相似变换群的定义与不变分布族证明

同变估计的核心思想是:样本做尺度变换时,参数、估计量、损失函数应做对应变换,保证估计的“合理性”与“不变性”。我们需要依次定义样本空间、参数空间、决策空间上的变换群。

1. 样本空间的相似变换群

给定样本空间\(\mathcal{X}\)(n维随机变量的取值空间),定义相似变换集合:

\[G = \{g_k: k>0\}, \quad g_k x = kx \quad (\text{即} \ g_k x_i = kx_i, \ i=1,2,\dots,n) \]

\(g_k\)的含义是对样本的每个分量做尺度为\(k\)的缩放。

严格证明\(G\)是一个群(满足群的四大公理):

  1. 封闭性:对任意\(g_{k_1}, g_{k_2} \in G\)\(g_{k_1} \circ g_{k_2}(x) = g_{k_1}(k_2 x) = k_1 k_2 x = g_{k_1 k_2}(x)\)\(k_1 k_2>0\),故\(g_{k_1 k_2} \in G\)
  2. 结合律:变换的复合天然满足结合律,\((g_{k_1} \circ g_{k_2}) \circ g_{k_3} = g_{k_1} \circ (g_{k_2} \circ g_{k_3})\)
  3. 单位元:取\(k=1\)\(g_1 x = x\)为恒等变换,属于\(G\)
  4. 逆元:对任意\(g_k \in G\),取\(k'=1/k>0\)\(g_{k'} \circ g_k(x) = x\),故\(g_{k'}\)\(g_k\)的逆元,属于\(G\)

因此\(G\)是样本空间上的相似变换群

2. 参数空间的导出群与不变分布族证明

我们需要推导:样本做变换\(g_k X = kX\)后,分布的参数如何变化,以此定义参数空间的导出群。

步骤1:推导变换后样本的分布

已知\(X \sim P_\sigma\),密度为\(\frac{1}{\sigma^n}f(x/\sigma)\),令\(Y = g_k X = kX\),逆变换为\(X = Y/k\),雅可比行列式\(|J| = 1/k^n\)

\(Y\)的密度为:

\[p_Y(y) = p_X\left( \frac{y}{k} \right) \cdot \frac{1}{k^n} = \frac{1}{\sigma^n}f\left( \frac{y}{k\sigma} \right) \cdot \frac{1}{k^n} = \frac{1}{(k\sigma)^n}f\left( \frac{y}{k\sigma} \right) \]

对比尺度参数分布族的定义,\(Y\)的密度恰好是\(P_{k\sigma}\)的密度,即\(Y \sim P_{k\sigma}\),参数从\(\sigma\)变为\(\sigma' = k\sigma\)

步骤2:定义参数空间的导出群

参数空间\(\Theta=(0,+\infty)\)上的变换集合:

\[\bar{G} = \{\bar{g}_k: k>0\}, \quad \bar{g}_k \sigma = k\sigma \]

与样本变换群\(G\)的证明完全一致,可证\(\bar{G}\)是一个群,称为样本变换群\(G\)在参数空间上的导出群

步骤3:不变分布族的结论

定义:若对任意\(g_k \in G\)\(X \sim P_\sigma\)可推出\(g_k X \sim P_{\bar{g}_k \sigma}\)(变换后的分布仍属于原分布族),则称该分布族为变换群\(G\)下的不变分布族

我们的推导已严格证明:尺度参数分布族是相似变换群\(G\)下的不变分布族

三、决策空间的导出群与同变估计条件

我们的目标是估计尺度参数\(\sigma\)(或其幂次\(\sigma^r\)),需要定义决策空间(估计量的取值空间)的导出群,并给出同变估计的约束条件。

同变估计的核心准则:当样本做变换\(g_k x\)、参数做变换\(\bar{g}_k \sigma\)时,估计量(决策)必须做对应的变换,即:

\[\delta(g_k x) = g_k^* \delta(x) \]

其中\(\delta(x)\)为估计量,\(g_k^*\)为决策空间的导出变换。

情况1:估计参数\(\sigma\)

1. 决策空间的导出群

待估参数为\(\sigma\),参数变换为\(\sigma' = k\sigma\),因此估计量\(d\)应做同比例变换\(d' = kd\)

定义决策空间的导出变换:

\[G^* = \{g_k^*: k>0\}, \quad g_k^* d = kd \]

显然\(G^* = \bar{G}\),与参数空间的导出群完全一致。

2. 同变条件的推导与化简

\(g_k x = kx\)\(g_k^* \delta(x) = k\widehat{\sigma}(x)\)代入同变准则,得到\(\sigma\)的同变估计必须满足的条件:

\[\widehat{\sigma}(kx) = k \widehat{\sigma}(x) \tag{4.3.1} \]

该式的本质是估计量的一次齐次性

对该式做关键化简:取\(k = \sigma^{-1}\)\(\sigma>0\)\(k>0\)为合法变换),代入得:

\[\widehat{\sigma}\left( \frac{x}{\sigma} \right) = \frac{\widehat{\sigma}(x)}{\sigma} \tag{4.3.2} \]

3. 同变估计的一般形式

将(4.3.2)变形,得到:

\[\widehat{\sigma}(X) = \sigma \cdot \widehat{\sigma}\left( \frac{X}{\sigma} \right) \]

\(Z = X/\sigma\),由前置性质可知\(Z \sim P_1\),与\(\sigma\)完全无关,记\(h(Z) = \widehat{\sigma}(Z)\),则\(\sigma\)的同变估计可统一表示为:

\[\widehat{\sigma}(X) = \sigma \cdot h(Z), \quad h(Z) \text{与} \ \sigma \text{无关} \]

这一形式完全刻画了所有同变估计的结构,是后续求解最小风险同变估计(MREE)的核心基础。

情况2:估计参数\(\sigma^r\)\(r\)为任意实数)

该情况为一般情形,覆盖了方差\(\sigma^2\)\(r=2\))、精度\(1/\sigma^2\)\(r=-2\))等常见估计场景。

1. 决策空间的导出群

待估参数为\(\sigma^r\),当参数变换为\(\sigma' = k\sigma\)时,待估参数的变换为\((\sigma')^r = (k\sigma)^r = k^r \sigma^r\),因此估计量\(d\)应做对应变换\(d' = k^r d\)

定义决策空间的导出变换:

\[\widetilde{G}^* = \{\widetilde{g}_k^*: k>0\}, \quad \widetilde{g}_k^* d = k^r d \]

2. 同变条件的推导与化简

\(g_k x = kx\)\(\widetilde{g}_k^* \delta(x) = k^r \widehat{\sigma^r}(x)\)代入同变准则,得到\(\sigma^r\)的同变估计必须满足的条件:

\[\widehat{\sigma^r}(kx) = k^r \widehat{\sigma^r}(x) \tag{4.3.3} \]

该式的本质是估计量的r次齐次性

同样取\(k = \sigma^{-1}\)代入,化简得:

\[\widehat{\sigma^r}\left( \frac{x}{\sigma} \right) = \frac{\widehat{\sigma^r}(x)}{\sigma^r} \]

3. 同变估计的一般形式

变形后得到\(\sigma^r\)的同变估计的统一形式:

\[\widehat{\sigma^r}(X) = \sigma^r \cdot h(Z), \quad Z=X/\sigma \sim P_1, \ h(Z) \text{与} \ \sigma \text{无关} \]

四、相似同变损失函数

损失函数\(L(\sigma,d)\)衡量“真实参数为\(\sigma\),用\(d\)作为估计”的损失。对于同变估计,要求损失函数具有变换不变性:样本、参数、估计量做对应变换后,损失保持不变,即:

\[L(\sigma, d) = L(\bar{g}_k \sigma, g_k^* d), \quad \forall k>0 \]

情况1:估计\(\sigma\)时的同变损失函数

此时参数变换为\(\bar{g}_k \sigma = k\sigma\),决策变换为\(g_k^* d = kd\),因此同变损失条件为:

\[L(\sigma, d) = L(k\sigma, kd), \quad \forall k>0 \]

化简与一般形式

\(k = \sigma^{-1}\)代入上式,得:

\[L(\sigma, d) = L\left( 1, \frac{d}{\sigma} \right) \]

\(\rho(t) = L(1, t)\)\(t = d/\sigma\)),则同变损失函数的一般形式为:

\[L(\sigma, d) = \rho\left( \frac{d}{\sigma} \right) \]

核心结论:估计\(\sigma\)时,同变损失函数必须是\(d/\sigma\)的函数,仅与估计量和真实参数的相对比值有关,与绝对尺度无关,完美适配尺度参数的估计特性。

常用同变损失函数

  1. 相对均方损失:取\(\rho(t) = (1-t)^2\),则

    \[L(\sigma, d) = \left( 1 - \frac{d}{\sigma} \right)^2 = \frac{(d-\sigma)^2}{\sigma^2} \]

  2. 相对绝对损失:取\(\rho(t) = |1-t|\),则

    \[L(\sigma, d) = \left| 1 - \frac{d}{\sigma} \right| \]

情况2:估计\(\sigma^r\)时的同变损失函数

此时参数变换为\(\bar{g}_k \sigma = k\sigma\),决策变换为\(\widetilde{g}_k^* d = k^r d\),因此同变损失条件为:

\[L(\sigma, d) = L(k\sigma, k^r d), \quad \forall k>0 \]

化简与一般形式

\(k = \sigma^{-1}\)代入,得:

\[L(\sigma, d) = L\left( 1, \frac{d}{\sigma^r} \right) \]

\(\rho(t) = L(1, t)\)\(t = d/\sigma^r\)),则同变损失函数的一般形式为:

\[L(\sigma, d) = \rho\left( \frac{d}{\sigma^r} \right) \]

常用同变损失函数

  1. 相对均方损失:取\(\rho(t) = (1-t)^2\),则

    \[L(\sigma, d) = \left( 1 - \frac{d}{\sigma^r} \right)^2 = \frac{(d-\sigma^r)^2}{\sigma^{2r}} \]

  2. 相对绝对损失:取\(\rho(t) = |1-t|\),则

    \[L(\sigma, d) = \left| 1 - \frac{d}{\sigma^r} \right| \]

五、核心知识点归纳总结表

分类维度 估计\(\sigma\)\(r=1\) 估计\(\sigma^r\)(一般情形)
尺度参数分布族定义 密度\(p(x,\sigma)=\frac{1}{\sigma^n}f\left(\frac{x}{\sigma}\right)\)\(\sigma>0\)\(X/\sigma \sim P_1\)(与\(\sigma\)无关的标准分布) 同左,待估参数为\(\sigma^r\)\(r \in \mathbb{R}\)
样本空间相似变换群 \(G=\{g_k: k>0\}\)\(g_k x = kx\),对样本做尺度缩放 同左
参数空间导出群 \(\bar{G}=\{\bar{g}_k: k>0\}\)\(\bar{g}_k \sigma = k\sigma\),参数同比例缩放 同左,待估参数变换:\(\sigma^r \to k^r \sigma^r\)
决策空间导出群 \(G^*=\bar{G}\)\(g_k^* d = kd\),估计量同比例缩放 \(\widetilde{G}^*=\{\widetilde{g}_k^*: k>0\}\)\(\widetilde{g}_k^* d = k^r d\)
同变估计核心条件 一次齐次性:\(\widehat{\sigma}(kx) = k \widehat{\sigma}(x)\)
等价形式:\(\widehat{\sigma}(x/\sigma) = \widehat{\sigma}(x)/\sigma\)
r次齐次性:\(\widehat{\sigma^r}(kx) = k^r \widehat{\sigma^r}(x)\)
等价形式:\(\widehat{\sigma^r}(x/\sigma) = \widehat{\sigma^r}(x)/\sigma^r\)
同变估计一般形式 \(\widehat{\sigma}(X) = \sigma \cdot h(Z)\)\(Z=X/\sigma \sim P_1\)\(h(Z)\)\(\sigma\)无关 \(\widehat{\sigma^r}(X) = \sigma^r \cdot h(Z)\)\(Z=X/\sigma \sim P_1\)\(h(Z)\)\(\sigma\)无关
同变损失函数条件 \(L(\sigma,d) = L(k\sigma, kd), \ \forall k>0\) \(L(\sigma,d) = L(k\sigma, k^r d), \ \forall k>0\)
同变损失函数一般形式 \(L(\sigma,d) = \rho\left( \frac{d}{\sigma} \right)\)\(\rho(t)=L(1,t)\) \(L(\sigma,d) = \rho\left( \frac{d}{\sigma^r} \right)\)\(\rho(t)=L(1,t)\)
常用同变损失函数 1. 相对均方损失:\(\frac{(d-\sigma)^2}{\sigma^2}\)
2. 相对绝对损失:\(\left|1-\frac{d}{\sigma}\right|\)
1. 相对均方损失:\(\frac{(d-\sigma^r)^2}{\sigma^{2r}}\)
2. 相对绝对损失:\(\left|1-\frac{d}{\sigma^r}\right|\)
核心特性 估计量齐次性、损失尺度不变性,风险仅与相对误差有关 同左,适配所有幂次尺度参数的估计场景

六、资深研究员的经验提示

  1. 同变估计的本质是利用分布族的对称性,消除未知参数的影响,将带参数的估计问题转化为无参数的标准分布问题,大幅简化最小风险估计的求解。
  2. 普通均方损失\((d-\sigma)^2\)不适合尺度参数估计:尺度变换后损失会随尺度平方放大,无法衡量估计的相对优劣;而相对均方损失具有严格的尺度不变性,是尺度参数估计的天然选择。
  3. 常用的样本标准差\(S\)满足\(S(kX)=kS(X)\),符合\(\sigma\)的同变条件,这是其作为\(\sigma\)常用估计量的核心理论依据。
  4. 后续求解最小风险同变估计(MREE),只需在同变估计的一般形式中,找到使风险\(E[L(\sigma,\widehat{\sigma})]\)最小的\(h(Z)\),而风险与\(\sigma\)无关,仅需在\(\sigma=1\)的标准分布下计算即可。

尺度参数的最优同变估计 全知识点详解与严格推导

我将以多年数理统计科研与教学的经验,承接上一节尺度参数分布族与相似变换群的基础,从核心概念出发,完成所有引理、定理的完整推导,拆解逻辑链条,最终进行结构化归纳总结。

一、章节核心目标与逻辑框架

上一节我们定义了尺度参数分布族的相似变换群、同变估计的齐次性约束、同变损失函数。本节的核心目标是:在所有满足同变性的估计中,找到风险最小的估计——最小风险同变估计(MREE,即最优同变估计)

整体逻辑链条为:

  1. 定义相似不变量,刻画尺度变换下保持不变的统计量;
  2. 通过3个引理,推导出所有同变估计的统一结构,将无穷多的同变估计转化为“固定同变估计×不变量函数”的形式;
  3. 借助均方误差最小化引理,推导出核心的Pitman定理,给出最优同变估计的显式表达式;
  4. 结合完备充分统计量,给出定理的实用推论,覆盖绝大多数实际应用场景;
  5. 通过经典例题,演示最优同变估计的求解步骤与实际意义。

二、核心概念:相似不变量与最大不变量

1. 相似不变量的定义

对于样本空间上的相似变换群\(G=\{g_k: k>0\}\)\(g_k x = kx\),即对样本做尺度为\(k\)的缩放),若统计量\(u(X)\)满足:

\[u(g_k X) = u(X), \quad \forall k>0 \]

即样本做任意尺度缩放后,统计量的值保持不变,则称\(u(X)\)相似不变量

核心性质:相似不变量的分布仅与\(\sigma=1\)时的标准分布\(P_1\)有关,与未知参数\(\sigma\)完全无关,因此是辅助统计量

2. 最大不变量的定义

统计量\(Z(X)\)称为相似变换群的最大不变量,当且仅当:

  1. \(Z(X)\)是相似不变量,即\(Z(g_k X)=Z(X), \forall k>0\)
  2. 任何相似不变量\(u(X)\),都可以表示为\(Z(X)\)的函数,即\(u(X)=\psi(Z(X))\)

最大不变量的核心意义:它完全消去了样本中关于尺度参数\(\sigma\)的所有信息,刻画了所有不变量的结构,是求解最优同变估计的核心工具。


三、核心引理的详细讲解与严格证明

引理4.3.1 同变估计与不变量的对应关系

引理内容:若\(\widehat{\sigma}_1(x)\)\(\widehat{\sigma}_2(x)\)\(\sigma\)的相似同变估计,则\(u(x)=\frac{\widehat{\sigma}_1(x)}{\widehat{\sigma}_2(x)}\)为相似不变量;反之,若\(u(x)\)为相似不变量,\(\widehat{\sigma}_1(x)\)为相似同变估计,则\(\widehat{\sigma}_2(x)=\widehat{\sigma}_1(x)u(x)\)也为相似同变估计。

引理意义:建立了同变估计与不变量的一一对应关系,证明了“所有同变估计都可以表示为某个固定同变估计乘以一个不变量”,为刻画所有同变估计的结构奠定基础。

严格证明

  1. 正向证明(同变估计的比值是不变量)
    由同变估计的定义,\(\widehat{\sigma}_1(kx)=k\widehat{\sigma}_1(x)\)\(\widehat{\sigma}_2(kx)=k\widehat{\sigma}_2(x)\),因此:

    \[u(kx) = \frac{\widehat{\sigma}_1(kx)}{\widehat{\sigma}_2(kx)} = \frac{k\widehat{\sigma}_1(x)}{k\widehat{\sigma}_2(x)} = \frac{\widehat{\sigma}_1(x)}{\widehat{\sigma}_2(x)} = u(x) \]

    满足相似不变量的定义,证毕。

  2. 反向证明(同变估计×不变量仍是同变估计)
    已知\(u(kx)=u(x)\)\(\widehat{\sigma}_1(kx)=k\widehat{\sigma}_1(x)\),因此:

    \[\widehat{\sigma}_2(kx) = \widehat{\sigma}_1(kx)u(kx) = k\widehat{\sigma}_1(x)u(x) = k\widehat{\sigma}_2(x) \]

    满足同变估计的一次齐次性条件,因此\(\widehat{\sigma}_2(x)\)是相似同变估计,证毕。


引理4.3.2 不变量的结构与最大不变量

引理内容\(u(x)\)为相似不变量的充要条件是:存在函数\(\psi(\cdot)\),使得\(u(x)=\psi(Z(x))\),其中最大不变量\(Z=(z_1,z_2,\dots,z_n)^T\)的分量为:

\[z_1 = \frac{x_1}{|x_1|}, \quad z_i = \frac{x_i}{x_1}, \ i=2,\dots,n \]

(要求\(P(|X_1|=0)=0\),即\(X_1\)几乎处处不为0),且\(u(X)\)的分布仅与标准分布\(P_1\)有关,与\(\sigma\)无关。

引理意义:完全刻画了所有相似不变量的结构,证明了任何不变量都可以表示为最大不变量的函数,同时证明了不变量的分布与\(\sigma\)无关,为后续消除未知参数、简化期望计算提供了核心依据。

严格证明

  1. 必要性(不变量必为最大不变量的函数)
    已知\(u(x)\)是相似不变量,即对任意\(k>0\),有\(u(kx_1,kx_2,\dots,kx_n)=u(x_1,x_2,\dots,x_n)\)
    \(k=\frac{1}{|x_1|}\)(因\(|x_1|>0\)\(k>0\)为合法变换),代入不变量条件得:

    \[u(x_1,x_2,\dots,x_n) = u\left( \frac{x_1}{|x_1|}, \frac{x_2}{|x_1|}, \dots, \frac{x_n}{|x_1|} \right) \]

    结合最大不变量的定义,\(\frac{x_i}{|x_1|} = \frac{x_i}{x_1} \cdot \frac{x_1}{|x_1|} = z_i z_1\),因此上式可改写为:

    \[u(x_1,\dots,x_n) = u(z_1, z_1 z_2, \dots, z_1 z_n) = \psi(z_1,z_2,\dots,z_n) = \psi(Z(x)) \]

    \(u(x)\)可表示为最大不变量\(Z\)的函数,必要性得证。

  2. 充分性(最大不变量的函数必为不变量)
    \(u(x)=\psi(Z(x))\),首先验证\(Z\)是不变量:对任意\(k>0\)

    \[z_1(kx) = \frac{kx_1}{|kx_1|} = \frac{kx_1}{k|x_1|} = \frac{x_1}{|x_1|} = z_1(x), \quad z_i(kx) = \frac{kx_i}{kx_1} = \frac{x_i}{x_1} = z_i(x) \]

    因此\(Z(kx)=Z(x)\),进而\(u(kx)=\psi(Z(kx))=\psi(Z(x))=u(x)\),即\(u(x)\)是相似不变量。

    同时,\(Z(X)=Z(X/\sigma)\),而\(X/\sigma \sim P_1\)\(\sigma\)无关,因此\(u(X)=\psi(Z(X))\)的分布仅由\(P_1\)决定,与\(\sigma\)无关,充分性得证。

补充说明

  • 最大不变量不唯一,例如取\(k=1/|x_n|\)可构造另一组最大不变量,只要能完全消去尺度信息即可;
  • 直观例子:\(|X_1|\)是同变估计,而\(X_1/X_n\)\(X_{(1)}/X_{(n)}\)是不变量(缩放后\(k\)约去,值不变)。

引理4.3.3 所有同变估计的统一表达式

引理内容:设\(\widehat{\sigma}_1(x)\)为某一相似同变估计,则任一相似同变估计\(\widehat{\sigma}^*(x)\)可表示为:

\[\widehat{\sigma}^*(x) = \widehat{\sigma}_1(x) \cdot \psi(Z(x)) \]

其中\(\psi(\cdot)\)是关于最大不变量\(Z\)的函数。

引理意义:将“寻找所有同变估计”的无穷维问题,转化为“寻找一个关于最大不变量的函数\(\psi\)”的低维问题,是求解最优同变估计的核心基础。

严格证明
由引理4.3.1,\(\widehat{\sigma}^*(x)\)\(\widehat{\sigma}_1(x)\)都是同变估计,因此\(u(x)=\frac{\widehat{\sigma}^*(x)}{\widehat{\sigma}_1(x)}\)是相似不变量;
再由引理4.3.2,任何相似不变量都可表示为最大不变量\(Z\)的函数,即\(u(x)=\psi(Z(x))\)
因此\(\widehat{\sigma}^*(x) = \widehat{\sigma}_1(x) \cdot u(x) = \widehat{\sigma}_1(x) \cdot \psi(Z(x))\),证毕。


引理4.3.4 均方误差的最小化引理

引理内容:记均方误差\(MSE = E\left[ a(X) + b(X)\psi(Y) \right]^2\),则当

\[\psi(Y) = -\frac{E\left[ a(X)b(X) \mid Y \right]}{E\left[ b^2(X) \mid Y \right]} \]

时,MSE达到最小值。

引理意义:这是求解带条件期望的均方误差最小值的核心数学工具,是后续Pitman定理证明的关键,本质是条件期望下的最小二乘优化。

严格证明

  1. 利用重期望公式(全期望公式),将MSE展开为条件期望的嵌套形式:

    \[MSE = E\left\{ E\left[ \left( a(X) + b(X)\psi(Y) \right)^2 \mid Y \right] \right\} \]

  2. 分析内层条件期望:当给定\(Y\)时,\(\psi(Y)\)是确定的常数,记为\(\lambda\),此时内层期望变为关于\(\lambda\)的一元二次函数:

    \[f(\lambda) = E\left[ \left( a(X) + b(X)\lambda \right)^2 \mid Y \right] \]

  3. 展开平方项,利用条件期望的线性性质:

    \[f(\lambda) = \lambda^2 \cdot E\left[ b^2(X) \mid Y \right] + 2\lambda \cdot E\left[ a(X)b(X) \mid Y \right] + E\left[ a^2(X) \mid Y \right] \]

  4. 二次函数最小值求解:
    这是开口向上的二次函数(二次项系数\(E[b^2(X)|Y] \geq 0\)),最小值在一阶导数为0处取得。求导得:

    \[f'(\lambda) = 2\lambda E\left[ b^2(X) \mid Y \right] + 2E\left[ a(X)b(X) \mid Y \right] \]

    \(f'(\lambda)=0\),解得:

    \[\lambda = -\frac{E\left[ a(X)b(X) \mid Y \right]}{E\left[ b^2(X) \mid Y \right]} \]

    二阶导数\(f''(\lambda)=2E[b^2(X)|Y] \geq 0\),因此该点为全局最小值点。

  5. 该最优\(\lambda\)是关于\(Y\)的函数,即\(\psi(Y)\),此时内层条件期望达到最小,外层对\(Y\)的期望也随之达到最小,因此MSE全局最小,证毕。


四、核心定理:Pitman定理(尺度参数最优同变估计)

定理内容

\(\widehat{\sigma}(X)\)\(\sigma\)的某一个相似同变估计,则在相对均方损失\(L(\sigma,d)=\frac{(d-\sigma)^2}{\sigma^2}\)下,\(\sigma\)的最优同变估计为:

\[\widehat{\sigma}^*(X) = \frac{E_1\left[ \widehat{\sigma}(X) \mid Z \right]}{E_1\left[ \widehat{\sigma}^2(X) \mid Z \right]} \cdot \widehat{\sigma}(X) \tag{4.3.5} \]

其中\(E_1\)表示对标准分布\(P_1\)\(\sigma=1\)时的分布)取期望,\(Z\)为最大不变量;且该最优解唯一,与初始同变估计\(\widehat{\sigma}(X)\)的选取无关。

定理意义

Pitman定理是尺度参数同变估计的核心结论,它给出了最优同变估计的显式表达式,证明了最优解的唯一性,且允许我们选择任意简单的初始同变估计进行计算,大幅降低了求解难度。

严格证明

证明分为两部分:最优性证明(该表达式使风险最小)和唯一性证明(结果与初始估计无关)。

1. 最优性证明

步骤1:确定同变估计的结构与风险函数
根据引理4.3.3,所有同变估计都可表示为\(\widehat{\sigma}^*(X) = \widehat{\sigma}(X)\psi(Z)\),我们的目标是找到\(\psi(\cdot)\),使风险函数最小。

采用同变的相对均方损失\(L(\sigma,d)=\left( \frac{d}{\sigma} - 1 \right)^2\),因此风险函数为:

\[R(\sigma, \widehat{\sigma}^*) = E_\sigma\left[ \left( \frac{\widehat{\sigma}^*(X)}{\sigma} - 1 \right)^2 \right] \]

\(\widehat{\sigma}^*(X)=\widehat{\sigma}(X)\psi(Z)\)代入,得:

\[R(\sigma, \widehat{\sigma}^*) = E_\sigma\left[ \left( \frac{\widehat{\sigma}(X)\psi(Z)}{\sigma} - 1 \right)^2 \right] \]

步骤2:消除未知参数\(\sigma\),将期望转化为标准分布\(P_1\)下的期望
根据同变估计的核心性质(上一节4.3.2式),同变估计满足\(\frac{\widehat{\sigma}(X)}{\sigma} = \widehat{\sigma}\left( \frac{X}{\sigma} \right)\);同时,最大不变量\(Z(X)=Z\left( \frac{X}{\sigma} \right)\)(不变量的性质)。

\(Y = \frac{X}{\sigma}\),则\(Y \sim P_1\)(与\(\sigma\)无关),\(X=\sigma Y\),代入上式:

\[\frac{\widehat{\sigma}(X)}{\sigma} = \frac{\widehat{\sigma}(\sigma Y)}{\sigma} = \widehat{\sigma}(Y), \quad Z(X)=Z(\sigma Y)=Z(Y) \]

因此,风险函数中的期望可完全转化为对\(Y \sim P_1\)的期望\(E_1\),且与\(\sigma\)完全无关:

\[R(\sigma, \widehat{\sigma}^*) = E_1\left[ \left( \widehat{\sigma}(Y)\psi(Z(Y)) - 1 \right)^2 \right] \]

步骤3:应用引理4.3.4,求解最优\(\psi(Z)\)
将上式的MSE改写为引理4.3.4的标准形式:

\[MSE = E_1\left[ -1 + \widehat{\sigma}(Y) \cdot \psi(Z) \right]^2 \]

对应引理中的\(a(Y)=-1\)\(b(Y)=\widehat{\sigma}(Y)\)\(Y\)对应引理中的\(X\)\(Z\)对应引理中的\(Y\)

根据引理4.3.4,最优的\(\psi(Z)\)为:

\[\psi(Z) = -\frac{E_1\left[ a(Y)b(Y) \mid Z \right]}{E_1\left[ b^2(Y) \mid Z \right]} = -\frac{E_1\left[ (-1)\cdot\widehat{\sigma}(Y) \mid Z \right]}{E_1\left[ \widehat{\sigma}^2(Y) \mid Z \right]} = \frac{E_1\left[ \widehat{\sigma}(Y) \mid Z \right]}{E_1\left[ \widehat{\sigma}^2(Y) \mid Z \right]} \]

将最优\(\psi(Z)\)代入同变估计的表达式,得到:

\[\widehat{\sigma}^*(X) = \frac{E_1\left[ \widehat{\sigma}(X) \mid Z \right]}{E_1\left[ \widehat{\sigma}^2(X) \mid Z \right]} \cdot \widehat{\sigma}(X) \]

最优性得证。

2. 唯一性证明

我们需要证明:无论选择哪个初始同变估计,最终得到的最优估计都是相同的。

假设选取另一初始同变估计\(\widetilde{\sigma}(X)\),根据定理,对应的最优估计为:

\[\widetilde{\sigma}^*(X) = \frac{E_1\left[ \widetilde{\sigma}(X) \mid Z \right]}{E_1\left[ \widetilde{\sigma}^2(X) \mid Z \right]} \cdot \widetilde{\sigma}(X) \]

根据引理4.3.3,\(\widetilde{\sigma}(X)\)\(\widehat{\sigma}(X)\)都是同变估计,因此存在关于\(Z\)的函数\(\varphi(Z)\),使得\(\widetilde{\sigma}(X) = \widehat{\sigma}(X) \cdot \varphi(Z)\)

将其代入\(\widetilde{\sigma}^*(X)\)的表达式:

  • 分子:\(E_1\left[ \widetilde{\sigma}(X) \mid Z \right] = E_1\left[ \widehat{\sigma}(X)\varphi(Z) \mid Z \right] = \varphi(Z) \cdot E_1\left[ \widehat{\sigma}(X) \mid Z \right]\)(给定\(Z\)时,\(\varphi(Z)\)为常数,可提出条件期望)
  • 分母:\(E_1\left[ \widetilde{\sigma}^2(X) \mid Z \right] = E_1\left[ \widehat{\sigma}^2(X)\varphi^2(Z) \mid Z \right] = \varphi^2(Z) \cdot E_1\left[ \widehat{\sigma}^2(X) \mid Z \right]\)

因此:

\[\widetilde{\sigma}^*(X) = \frac{\varphi(Z) E_1\left[ \widehat{\sigma} \mid Z \right]}{\varphi^2(Z) E_1\left[ \widehat{\sigma}^2 \mid Z \right]} \cdot \widehat{\sigma}(X)\varphi(Z) = \frac{E_1\left[ \widehat{\sigma} \mid Z \right]}{E_1\left[ \widehat{\sigma}^2 \mid Z \right]} \cdot \widehat{\sigma}(X) = \widehat{\sigma}^*(X) \]

即无论选择哪个初始同变估计,最终的最优估计完全相同,唯一性得证。


五、Pitman定理的实用推论

推论1 完备充分统计量下的简化形式

推论内容:若\(T=T(X)\)\(\sigma\)的完备充分统计量,且\(\varphi(T)\)\(\sigma\)的同变估计,则\(\sigma\)的最优同变估计为:

\[\widehat{\sigma}^*(X) = \frac{E_1\left[ \varphi(T) \right]}{E_1\left[ \varphi^2(T) \right]} \cdot \varphi(T) \tag{4.3.6} \]

推论意义:这是实际应用中最常用的形式。绝大多数常见分布都存在完备充分统计量,此时无需计算复杂的条件期望,仅需计算两个无条件期望,计算量大幅降低。

严格证明
根据Basu定理:完备充分统计量与辅助统计量相互独立。
最大不变量\(Z\)的分布与\(\sigma\)无关,是辅助统计量,因此\(T\)\(Z\)独立。

将初始同变估计取为\(\widehat{\sigma}(X)=\varphi(T)\),代入Pitman定理的表达式:

\[\widehat{\sigma}^*(X) = \frac{E_1\left[ \varphi(T) \mid Z \right]}{E_1\left[ \varphi^2(T) \mid Z \right]} \cdot \varphi(T) \]

由于\(T\)\(Z\)独立,条件期望等于无条件期望,即\(E_1[\varphi(T)|Z]=E_1[\varphi(T)]\)\(E_1[\varphi^2(T)|Z]=E_1[\varphi^2(T)]\),代入后即得推论1的表达式,证毕。


推论2 最简初始估计的形式

推论内容:取初始同变估计\(\widehat{\sigma}(X)=|X_1|\),则\(\sigma\)的最优同变估计为:

\[\widehat{\sigma}^*(X) = \frac{E_1\left[ |X_1| \mid Z \right]}{E_1\left[ X_1^2 \mid Z \right]} \cdot |X_1| \tag{4.3.7} \]

推论意义:当找不到完备充分统计量时,可直接选取最简单的同变估计\(|X_1|\),无需构造复杂的初始估计。

证明\(|X_1|\)满足\(|kX_1|=k|X_1|\),是\(\sigma\)的同变估计,直接代入Pitman定理即可得证。


推论3 尺度参数幂次\(\sigma^r\)的最优同变估计

推论内容:设\(\delta(X)\)\(\sigma^r\)的某个同变估计(满足\(\delta(kX)=k^r\delta(X)\),r次齐次性),则在相对均方损失\(L(\sigma,d)=\frac{(d-\sigma^r)^2}{\sigma^{2r}}\)下,\(\sigma^r\)的最优同变估计为:

\[\delta^*(X) = \frac{E_1\left[ \delta(X) \mid Z \right]}{E_1\left[ \delta^2(X) \mid Z \right]} \cdot \delta(X) \tag{4.3.8} \]

推论意义:将Pitman定理推广到任意幂次的尺度参数估计,覆盖了方差\(\sigma^2\)\(r=2\))、精度\(1/\sigma^2\)\(r=-2\))等绝大多数实际应用场景。

证明:与Pitman定理的证明逻辑完全一致,仅将同变条件从一次齐次性替换为r次齐次性,损失函数替换为对应\(\sigma^r\)的相对均方损失,重复推导步骤即可得证。


六、经典例题详解

例4.3.1 指数分布的尺度参数最优同变估计

题目:设\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim \frac{1}{\sigma}e^{-x_1/\sigma}I\{x_1 \geq 0\}\)(指数分布,均值为\(\sigma\)),求\(\sigma\)的最优同变估计。

求解步骤

  1. 验证尺度参数分布族:密度\(f(x,\sigma)=\frac{1}{\sigma}e^{-x/\sigma}I\{x\geq0\}\),符合\(\frac{1}{\sigma}f(x/\sigma)\)的形式,\(\sigma\)为尺度参数。
  2. 找完备充分统计量:指数族的完备充分统计量为\(T=\sum_{i=1}^n X_i\)
  3. 验证同变性:\(T(kX)=\sum kX_i = k\sum X_i = kT(X)\),满足一次齐次性,是\(\sigma\)的同变估计。
  4. 用推论1计算:
    \(\sigma=1\)时,\(X_1 \sim \Gamma(1,1)\),因此\(T=\sum X_i \sim \Gamma(n,1)\)(Gamma分布)。
    Gamma分布\(\Gamma(\alpha,\lambda)\)的期望\(E(X)=\frac{\alpha}{\lambda}\)\(E(X^2)=\frac{\alpha}{\lambda^2} + \left( \frac{\alpha}{\lambda} \right)^2\),代入\(\alpha=n,\lambda=1\)

    \[E_1(T) = n, \quad E_1(T^2) = n + n^2 = n(n+1) \]

    因此最优估计为:

    \[\widehat{\sigma}^*(X) = \frac{E_1(T)}{E_1(T^2)} \cdot T = \frac{n}{n(n+1)} T = \frac{T}{n+1} = \frac{1}{n+1}\sum_{i=1}^n X_i \]

结果对比\(\sigma\)的最大似然估计(MLE)和无偏估计均为\(\frac{T}{n}\),二者都是同变估计,但在相对均方损失下,\(\frac{T}{n+1}\)的风险更小,更优。


例4.3.2 均匀分布\(R(0,\theta)\)的尺度参数最优同变估计

题目:设\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim R(0,\theta)\),求\(\theta\)的最优同变估计。

求解步骤

  1. 验证尺度参数分布族:密度\(f(x,\theta)=\frac{1}{\theta}I\{0\leq x\leq\theta\}\),符合\(\frac{1}{\theta}f(x/\theta)\)的形式,\(\theta\)为尺度参数。
  2. 找完备充分统计量:次序统计量\(X_{(n)}=\max\{X_1,\dots,X_n\}\)\(\theta\)的完备充分统计量。
  3. 验证同变性:\(X_{(n)}(kX)=\max\{kX_i\}=k\max\{X_i\}=kX_{(n)}(X)\),是同变估计。
  4. 用推论1计算:
    \(\theta=1\)时,\(X_{(n)} \sim BE(n,1)\)(Beta分布),密度为\(f(t)=n t^{n-1}I\{0\leq t\leq1\}\)
    计算期望:

    \[E_1(X_{(n)}) = \int_0^1 t \cdot n t^{n-1} dt = \frac{n}{n+1}, \quad E_1(X_{(n)}^2) = \int_0^1 t^2 \cdot n t^{n-1} dt = \frac{n}{n+2} \]

    因此最优估计为:

    \[\widehat{\theta}^*(X) = \frac{E_1(X_{(n)})}{E_1(X_{(n)}^2)} \cdot X_{(n)} = \frac{n/(n+1)}{n/(n+2)} X_{(n)} = \frac{n+2}{n+1}X_{(n)} \]

结果对比\(\theta\)的MLE为\(X_{(n)}\),无偏估计为\(\frac{n+1}{n}X_{(n)}\),二者均为同变估计,但相对均方损失下,\(\frac{n+2}{n+1}X_{(n)}\)更优。


例4.3.3 正态分布\(N(0,\sigma^2)\)的方差最优同变估计

题目:设\(X_1,\dots,X_n\)独立同分布,\(X_1 \sim N(0,\sigma^2)\),求\(\sigma^2\)的最优同变估计。

求解步骤

  1. 验证尺度参数分布族:\(N(0,\sigma^2)\)的密度符合尺度参数形式,\(\sigma\)为尺度参数,待估参数为\(\sigma^2\)\(r=2\))。
  2. 找完备充分统计量:\(T=\sum_{i=1}^n X_i^2\)\(\sigma^2\)的完备充分统计量。
  3. 验证同变性:\(T(kX)=\sum (kX_i)^2 = k^2 \sum X_i^2 = k^2 T(X)\),满足\(r=2\)的齐次性,是\(\sigma^2\)的同变估计。
  4. 用推论3(结合完备充分统计量)计算:
    \(\sigma=1\)时,\(X_1^2 \sim \chi^2(1)\),因此\(T=\sum X_i^2 \sim \chi^2(n)\)(自由度为n的卡方分布)。
    卡方分布\(\chi^2(\nu)\)的期望\(E(X)=\nu\)\(E(X^2)=2\nu + \nu^2\),代入\(\nu=n\)

    \[E_1(T)=n, \quad E_1(T^2)=2n + n^2 = n(n+2) \]

    因此最优估计为:

    \[\widehat{\sigma^2}^*(X) = \frac{E_1(T)}{E_1(T^2)} \cdot T = \frac{n}{n(n+2)} T = \frac{T}{n+2} = \frac{1}{n+2}\sum_{i=1}^n X_i^2 \]

结果对比\(\sigma^2\)的MLE为\(\frac{T}{n}\),无偏估计为\(\frac{T}{n-1}\),二者均为同变估计,但相对均方损失下,\(\frac{T}{n+2}\)更优。


七、核心知识点归纳总结表

表1 核心概念定义表

概念名称 严格定义 核心性质与意义
相似不变量 对相似变换群\(G=\{g_k:k>0\}\),满足\(u(g_k X)=u(X), \forall k>0\)的统计量 分布仅与标准分布\(P_1\)有关,与\(\sigma\)无关,是辅助统计量
最大不变量 ①是不变量;②任何不变量都可表示为它的函数 完全消去尺度信息,刻画所有不变量的结构,是求解同变估计的核心工具
尺度同变估计 \(\sigma\)的估计满足\(\widehat{\sigma}(kX)=k\widehat{\sigma}(X)\)(一次齐次);对\(\sigma^r\)满足\(\widehat{\sigma^r}(kX)=k^r\widehat{\sigma^r}(X)\)(r次齐次) 样本尺度缩放时,估计量做对应变换,符合尺度参数的物理意义
同变均方损失 \(\sigma\)\(L(\sigma,d)=\frac{(d-\sigma)^2}{\sigma^2}\);对\(\sigma^r\)\(L(\sigma,d)=\frac{(d-\sigma^r)^2}{\sigma^{2r}}\) 变换不变性,仅与相对误差有关,适配尺度参数估计

表2 核心引理汇总表

引理编号 核心结论 核心作用
4.3.1 两个同变估计的比值是不变量;同变估计×不变量仍是同变估计 建立同变估计与不变量的一一对应关系
4.3.2 所有相似不变量都可表示为最大不变量的函数,分布与\(\sigma\)无关 刻画不变量的结构,消除未知参数\(\sigma\)的影响
4.3.3 任一同变估计都可表示为「固定同变估计×最大不变量的函数」 给出所有同变估计的统一形式,将优化问题降维
4.3.4 给出带条件期望的均方误差的最小值点表达式 Pitman定理证明的核心数学工具

表3 核心定理与推论汇总表

定理/推论 核心表达式 适用场景 核心优势
Pitman定理 \(\widehat{\sigma}^*(X) = \frac{E_1[\widehat{\sigma}(X)|Z]}{E_1[\widehat{\sigma}^2(X)|Z]} \cdot \widehat{\sigma}(X)\) 任意尺度参数分布族的\(\sigma\)估计 显式表达式,解唯一,初始估计可任意选择
推论1(完备充分统计量简化) \(\widehat{\sigma}^*(X) = \frac{E_1[\varphi(T)]}{E_1[\varphi^2(T)]} \cdot \varphi(T)\) 存在完备充分统计量的分布(绝大多数常见分布) 无需计算条件期望,仅需两个无条件期望,计算量极低
推论3(\(\sigma^r\)的推广) \(\delta^*(X) = \frac{E_1[\delta(X)|Z]}{E_1[\delta^2(X)|Z]} \cdot \delta(X)\) 尺度参数的幂次估计(方差、精度等) 覆盖几乎所有实际应用场景

表4 经典分布最优同变估计结果汇总表

分布类型 待估参数 完备充分统计量 最优同变估计 对比:MLE/无偏估计
指数分布\(Exp(1/\sigma)\) \(\sigma\) \(T=\sum_{i=1}^n X_i\) \(\widehat{\sigma}^*=\frac{1}{n+1}\sum X_i\) MLE/无偏估计:\(\frac{1}{n}\sum X_i\),风险更高
均匀分布\(R(0,\theta)\) \(\theta\) \(T=X_{(n)}\) \(\widehat{\theta}^*=\frac{n+2}{n+1}X_{(n)}\) MLE:\(X_{(n)}\),无偏估计:\(\frac{n+1}{n}X_{(n)}\),风险更高
正态分布\(N(0,\sigma^2)\) \(\sigma^2\) \(T=\sum_{i=1}^n X_i^2\) \(\widehat{\sigma^2}^*=\frac{1}{n+2}\sum X_i^2\) MLE:\(\frac{1}{n}\sum X_i^2\),无偏估计:\(\frac{1}{n-1}\sum X_i^2\),风险更高
瑞利分布 \(\sigma^2\) \(T=\sum_{i=1}^n X_i^2\) \(\widehat{\sigma^2}^*=\frac{1}{n+1}\sum X_i^2\) MLE/无偏估计:\(\frac{1}{n}\sum X_i^2\),风险更高

八、资深研究员的教学总结

  1. 核心逻辑:整个章节的本质是利用分布族的对称性(尺度不变性),将带未知参数的无穷维估计问题,转化为无参数的低维优化问题,最终通过最小二乘思想得到显式最优解。
  2. 同变性的直观意义:尺度参数的物理意义是“度量单位”,同变性要求“单位从米换成厘米时,估计值也乘以100”,这是估计量合理性的基本要求。
  3. 偏差-方差权衡:最优同变估计牺牲了无偏性,换来了更小的整体均方误差。例如正态方差的最优同变估计\(\frac{T}{n+2}\),虽然有偏,但在相对均方损失下,比无偏估计\(\frac{T}{n-1}\)表现更好,这是统计决策的经典结论。
  4. 实用技巧:实际应用中,90%以上的场景都可以通过「找完备充分统计量→验证同变性→用推论1计算」三步完成最优同变估计的求解,无需复杂的条件期望计算。

Pitman积分公式 全知识点详解与严格推导

承接上一节尺度参数最优同变估计的Pitman定理,本节的核心目标是将最优同变估计的条件期望形式,转化为仅依赖样本密度的积分显式形式——Pitman积分公式,彻底解决条件期望计算复杂的问题,让最优同变估计的求解无需再推导最大不变量的条件分布,仅通过样本密度对尺度参数的积分即可完成,是尺度参数估计中最具实用价值的结论之一。

我将以60余年数理统计教学与科研的经验,从核心引理出发,完成全流程的严格推导,拆解每一步变换的逻辑,最终总结公式的应用方法与核心价值。


一、本节的核心逻辑铺垫

上一节的推论2给出了尺度参数\(\sigma\)的最优同变估计的最简形式:

\[\widehat{\sigma}^*(X) = \frac{E_1\left( |X_1| \mid Z \right)}{E_1\left( X_1^2 \mid Z \right)} \cdot |X_1| \]

其中\(E_1\)表示对标准分布\(P_1\)\(\sigma=1\))取期望,\(Z=(Z_1,Z_2,\dots,Z_n)^T\)是相似变换群的最大不变量,定义为:

\[Z_1 = \frac{X_1}{|X_1|}, \quad Z_i = \frac{X_i}{X_1}, \ i=2,3,\dots,n \]

该式理论上完美,但实际计算存在核心障碍:要计算条件期望\(E_1(|X_1||Z)\)\(E_1(X_1^2|Z)\),必须先求出给定最大不变量\(Z\)时,\(X_1\)的条件分布\(p(x_1|z_1,z_2,\dots,z_n)\)。本节的两个核心引理,就是为了求解这个条件分布,为最终的Pitman积分公式奠定基础。


二、核心引理的详细讲解与严格证明

引理4.3.5 给定\(Z_2,\dots,Z_n\)\(X_1\)的条件分布

引理内容:假设\(P(X_1=0)=0\)(即\(X_1\)几乎处处不为0),则当\(\sigma=1\)时,\(X_1\)给定\(Z_2,\dots,Z_n\)的条件分布为:

\[p(x_1|z_2,\dots,z_n) = \frac{|x_1|^{n-1} f(x_1, x_1 z_2, \dots, x_1 z_n)}{\int_{-\infty}^{\infty} |u|^{n-1} f(u, u z_2, \dots, u z_n) du} \tag{4.3.9} \]

其中\(f(x_1,\dots,x_n)\)是标准分布\(P_1\)的概率密度函数。

引理意义:给出了\(X_1\)关于部分最大不变量\(Z_2,\dots,Z_n\)的条件分布,是后续计算条件期望的核心基础,其推导的关键是n维随机变量的线性变换与雅可比行列式计算


引理4.3.5的严格证明

我们的目标是求\((X_1,Z_2,\dots,Z_n)\)的联合分布,再通过条件分布公式得到结果,分为3个核心步骤:

步骤1:构造可逆变换,计算雅可比行列式

我们构造从\((X_1,X_2,\dots,X_n)\)\((Y_1,Y_2,\dots,Y_n)\)的一一变换:

\[\begin{cases} Y_1 = X_1 \\ Y_2 = \frac{X_2}{X_1} = Z_2 \\ \quad \vdots \\ Y_n = \frac{X_n}{X_1} = Z_n \end{cases} \]

其逆变换为:

\[\begin{cases} X_1 = Y_1 \\ X_2 = Y_1 Y_2 \\ \quad \vdots \\ X_n = Y_1 Y_n \end{cases} \]

接下来计算该逆变换的雅可比行列式
雅可比矩阵\(J\)是n阶方阵,其元素为\(J_{ij} = \frac{\partial X_i}{\partial Y_j}\),具体形式为:

\[J = \begin{pmatrix} \frac{\partial X_1}{\partial Y_1} & \frac{\partial X_1}{\partial Y_2} & \dots & \frac{\partial X_1}{\partial Y_n} \\ \frac{\partial X_2}{\partial Y_1} & \frac{\partial X_2}{\partial Y_2} & \dots & \frac{\partial X_2}{\partial Y_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial X_n}{\partial Y_1} & \frac{\partial X_n}{\partial Y_2} & \dots & \frac{\partial X_n}{\partial Y_n} \end{pmatrix} = \begin{pmatrix} 1 & 0 & 0 & \dots & 0 \\ Y_2 & Y_1 & 0 & \dots & 0 \\ Y_3 & 0 & Y_1 & \dots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ Y_n & 0 & 0 & \dots & Y_1 \end{pmatrix} \]

这是一个下三角矩阵,其行列式等于所有对角元的乘积。对角元依次为\(1, Y_1, Y_1, \dots, Y_1\)(共\(n-1\)\(Y_1\)),因此:

\[\det(J) = 1 \cdot Y_1 \cdot Y_1 \cdot \dots \cdot Y_1 = Y_1^{n-1} \]

雅可比行列式的绝对值为\(|J| = |Y_1|^{n-1}\)

步骤2:推导\((Y_1,Y_2,\dots,Y_n)\)的联合密度

已知当\(\sigma=1\)时,\((X_1,\dots,X_n)\)的联合密度为\(f(x_1,x_2,\dots,x_n)\)。根据随机变量变换的密度公式,变换后的\((Y_1,\dots,Y_n)\)的联合密度为:

\[p_Y(y_1,y_2,\dots,y_n) = f\left( y_1, y_1 y_2, \dots, y_1 y_n \right) \cdot |J| \]

代入\(|J|=|y_1|^{n-1}\),得:

\[p_Y(y_1,y_2,\dots,y_n) = f\left( y_1, y_1 y_2, \dots, y_1 y_n \right) \cdot |y_1|^{n-1} \]

\(Y_1=X_1\)\(Y_2=Z_2,\dots,Y_n=Z_n\),因此\((X_1,Z_2,\dots,Z_n)\)的联合密度为:

\[p(x_1,z_2,\dots,z_n) = f\left( x_1, x_1 z_2, \dots, x_1 z_n \right) \cdot |x_1|^{n-1} \]

步骤3:推导条件分布

根据条件分布的定义,\(p(x_1|z_2,\dots,z_n) = \frac{p(x_1,z_2,\dots,z_n)}{p(z_2,\dots,z_n)}\),其中边缘密度\(p(z_2,\dots,z_n)\)是联合密度对\(x_1\)的积分:

\[p(z_2,\dots,z_n) = \int_{-\infty}^{\infty} p(x_1,z_2,\dots,z_n) dx_1 = \int_{-\infty}^{\infty} |u|^{n-1} f(u, u z_2, \dots, u z_n) du \]

将联合密度和边缘密度代入条件分布公式,即可得到引理4.3.5的结果,证毕。


引理4.3.6 给定完整最大不变量\(Z=(Z_1,Z_2,\dots,Z_n)\)\(X_1\)的条件分布

引理内容:设\(p_z = P(X_1>0 | Z_2=z_2,\dots,Z_n=z_n)\),则给定\(Z=(z_1,z_2,\dots,z_n)\)时,\(X_1\)的条件分布为:

\[p(x_1|z_1,z_2,\dots,z_n) = \begin{cases} p_z^{-1} p(x_1|z_2,\dots,z_n) I\{x_1>0\}, & z_1=1 \\ (1-p_z)^{-1} p(x_1|z_2,\dots,z_n) I\{x_1<0\}, & z_1=-1 \end{cases} \]

其中\(I\{\cdot\}\)为示性函数,\(Z_1=X_1/|X_1|\),仅取\(\pm1\)两个值:\(Z_1=1\)等价于\(X_1>0\)\(Z_1=-1\)等价于\(X_1<0\)

引理意义:处理了最大不变量中离散分量\(Z_1\)的影响,将完整的条件分布转化为引理4.3.5中连续条件分布的截断形式,为条件期望的计算扫清了最后障碍。


引理4.3.6的严格证明

我们仅证明\(z_1=1\)(即\(X_1>0\))的情形,\(z_1=-1\)的情形完全对称。

根据条件分布函数的定义,给定\(Z_1=1,Z_2=z_2,\dots,Z_n=z_n\)时,\(X_1\)的条件分布函数为:

\[F(x_1 | z_1=1, z_2,\dots,z_n) = P(X_1 \leq x_1 | Z_1=1, Z_2=z_2,\dots,Z_n=z_n) \]

根据条件概率的定义,将\(Z_1=1\)替换为\(X_1>0\),得:

\[F(x_1 | z_1=1, z_2,\dots,z_n) = \frac{P(X_1 \leq x_1, X_1>0 | Z_2=z_2,\dots,Z_n=z_n)}{P(X_1>0 | Z_2=z_2,\dots,Z_n=z_n)} \]

分母就是\(p_z\),分子是\(X_1\)\((0,x_1]\)上的条件概率积分,因此:

\[F(x_1 | z_1=1, z_2,\dots,z_n) = p_z^{-1} \int_{0}^{x_1} p(u|z_2,\dots,z_n) du \cdot I\{x_1>0\} \]

对分布函数关于\(x_1\)求导,即可得到条件密度:

\[p(x_1 | z_1=1, z_2,\dots,z_n) = p_z^{-1} p(x_1|z_2,\dots,z_n) I\{x_1>0\} \]

\(z_1=-1\)的情形同理可证,引理4.3.6得证。


三、核心定理:Pitman积分公式(尺度参数最优同变估计)

定理4.3.2 Pitman积分公式

定理内容:设\(X=(X_1,\dots,X_n)^T\)服从尺度参数分布族,密度为:

\[p(x,\sigma) = \frac{1}{\sigma^n} f\left( \frac{x}{\sigma} \right) = \frac{1}{\sigma^n} f\left( \frac{x_1}{\sigma}, \frac{x_2}{\sigma}, \dots, \frac{x_n}{\sigma} \right), \quad \sigma>0 \]

则在相对均方损失下,\(\sigma\)的最优同变估计可表示为:

\[\widehat{\sigma}^*(X) = \frac{\int_{0}^{\infty} \sigma^{-2} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-3} p(X,\sigma) d\sigma} = \frac{\int_{0}^{\infty} \sigma^{-2} \cdot \frac{1}{\sigma^n} f\left( \frac{X}{\sigma} \right) d\sigma}{\int_{0}^{\infty} \sigma^{-3} \cdot \frac{1}{\sigma^n} f\left( \frac{X}{\sigma} \right) d\sigma} \tag{4.3.10} \]

定理意义:这是尺度参数最优同变估计的终极实用结论。它彻底摆脱了最大不变量、条件分布、条件期望的复杂计算,仅需将样本密度\(p(X,\sigma)\)代入关于\(\sigma\)的积分,即可直接得到最优同变估计,计算过程完全标准化,适用于所有尺度参数分布族。


定理4.3.2的严格证明

我们的证明思路是:从最优同变估计的条件期望形式出发,代入两个引理的条件分布,通过变量替换将条件期望转化为关于\(\sigma\)的积分,最终得到Pitman积分公式。分为4个核心步骤:

步骤1:写出条件期望的积分形式

根据上一节的推论2,\(\sigma\)的最优同变估计为:

\[\widehat{\sigma}^*(X) = \frac{E_1\left( |X_1| \mid Z \right)}{E_1\left( X_1^2 \mid Z \right)} \cdot |X_1| \]

我们先处理\(Z_1=1\)(即\(X_1>0\))的情形,此时\(|X_1|=X_1\)\(Z_1=1\),根据条件期望的定义,\(E_1(|X_1||Z=z) = \int_{-\infty}^{\infty} |x_1| p(x_1|z_1,z_2,\dots,z_n) dx_1\)

代入引理4.3.6的条件分布(\(z_1=1\)\(x_1>0\)),得:

\[E_1(|X_1||Z=z) = \int_{0}^{\infty} x_1 \cdot p_z^{-1} p(x_1|z_2,\dots,z_n) dx_1 \]

再代入引理4.3.5的\(p(x_1|z_2,\dots,z_n)\),得:

\[E_1(|X_1||Z=z) = p_z^{-1} \cdot \frac{\int_{0}^{\infty} x_1 \cdot |x_1|^{n-1} f(x_1,x_1 z_2,\dots,x_1 z_n) dx_1}{\int_{-\infty}^{\infty} |u|^{n-1} f(u,u z_2,\dots,u z_n) du} \]

由于\(x_1>0\)\(|x_1|=x_1\),因此\(x_1 \cdot |x_1|^{n-1} = x_1^n\),化简得:

\[E_1(|X_1||Z=z) = p_z^{-1} \cdot \frac{\int_{0}^{\infty} x_1^n f(x_1,x_1 z_2,\dots,x_1 z_n) dx_1}{\int_{-\infty}^{\infty} |u|^{n-1} f(u,u z_2,\dots,u z_n) du} \tag{1} \]

同理,计算\(E_1(X_1^2|Z=z)\),此时\(x_1^2 \cdot |x_1|^{n-1} = x_1^{n+1}\),得:

\[E_1(X_1^2|Z=z) = p_z^{-1} \cdot \frac{\int_{0}^{\infty} x_1^{n+1} f(x_1,x_1 z_2,\dots,x_1 z_n) dx_1}{\int_{-\infty}^{\infty} |u|^{n-1} f(u,u z_2,\dots,u z_n) du} \tag{2} \]

步骤2:约分化简,得到条件期望的比值

将(1)式和(2)式相除,会发现\(p_z^{-1}\)和分母的积分项完全约去,得到:

\[\frac{E_1(|X_1||Z)}{E_1(X_1^2|Z)} = \frac{\int_{0}^{\infty} u^n f(u, u Z_2, \dots, u Z_n) du}{\int_{0}^{\infty} u^{n+1} f(u, u Z_2, \dots, u Z_n) du} \tag{4.3.11} \]

这里我们将积分哑变量\(x_1\)替换为\(u\),避免和样本\(X\)混淆。

步骤3:核心变量替换,将积分转化为关于\(\sigma\)的形式

这是证明中最关键的一步,我们的目标是将\(f(u, u Z_2, \dots, u Z_n)\)转化为仅关于样本\(X\)的形式。

首先,根据\(Z_i\)的定义,\(Z_i = \frac{X_i}{X_1} (i≥2)\),因此\(u Z_i = u \cdot \frac{X_i}{X_1}\)。我们做变量替换:

\[u = \frac{X_1}{t}, \quad \text{即} \quad t = \frac{X_1}{u} \]

其中\(u>0\)\(X_1>0\)\(Z_1=1\)的情形),因此\(t>0\)

\(u\)求微分,得:

\[du = -\frac{X_1}{t^2} dt \]

积分上下限:当\(u=0\)时,\(t \to +\infty\);当\(u \to +\infty\)时,\(t=0\),因此积分上下限交换后,负号抵消。

首先化简\(f\)的自变量:

\[f(u, u Z_2, \dots, u Z_n) = f\left( \frac{X_1}{t}, \frac{X_1}{t} \cdot \frac{X_2}{X_1}, \dots, \frac{X_1}{t} \cdot \frac{X_n}{X_1} \right) = f\left( \frac{X_1}{t}, \frac{X_2}{t}, \dots, \frac{X_n}{t} \right) = f\left( \frac{X}{t} \right) \]

接下来,将变量替换代入(4.3.11)式的分子:

\[\int_{0}^{\infty} u^n f(u, u Z_2, \dots, u Z_n) du = \int_{+\infty}^{0} \left( \frac{X_1}{t} \right)^n f\left( \frac{X}{t} \right) \cdot \left( -\frac{X_1}{t^2} dt \right) \]

交换积分上下限,消去负号:

\[= \int_{0}^{\infty} \frac{X_1^n}{t^n} \cdot \frac{X_1}{t^2} f\left( \frac{X}{t} \right) dt = X_1^{n+1} \int_{0}^{\infty} t^{-(n+2)} f\left( \frac{X}{t} \right) dt \]

同理,代入(4.3.11)式的分母:

\[\int_{0}^{\infty} u^{n+1} f(u, u Z_2, \dots, u Z_n) du = \int_{0}^{\infty} \left( \frac{X_1}{t} \right)^{n+1} f\left( \frac{X}{t} \right) \cdot \frac{X_1}{t^2} dt = X_1^{n+2} \int_{0}^{\infty} t^{-(n+3)} f\left( \frac{X}{t} \right) dt \]

步骤4:约分化简,得到Pitman积分公式

将分子和分母代入(4.3.11)式,\(X_1\)的幂次约去,得:

\[\frac{E_1(|X_1||Z)}{E_1(X_1^2|Z)} = \frac{X_1^{n+1} \int_{0}^{\infty} t^{-(n+2)} f\left( \frac{X}{t} \right) dt}{X_1^{n+2} \int_{0}^{\infty} t^{-(n+3)} f\left( \frac{X}{t} \right) dt} = \frac{1}{X_1} \cdot \frac{\int_{0}^{\infty} t^{-(n+2)} f\left( \frac{X}{t} \right) dt}{\int_{0}^{\infty} t^{-(n+3)} f\left( \frac{X}{t} \right) dt} \]

将该比值代入最优同变估计的表达式,此时\(|X_1|=X_1\),因此\(X_1\)\(1/X_1\)完全约去,得:

\[\widehat{\sigma}^*(X) = \frac{\int_{0}^{\infty} t^{-(n+2)} f\left( \frac{X}{t} \right) dt}{\int_{0}^{\infty} t^{-(n+3)} f\left( \frac{X}{t} \right) dt} \]

注意到积分变量\(t\)是哑变量,我们将其替换为\(\sigma\),同时结合尺度参数分布族的密度\(p(X,\sigma) = \frac{1}{\sigma^n} f\left( \frac{X}{\sigma} \right)\),即\(f\left( \frac{X}{\sigma} \right) = \sigma^n p(X,\sigma)\),代入上式:

  • 分子:\(\int_{0}^{\infty} \sigma^{-(n+2)} \cdot \sigma^n p(X,\sigma) d\sigma = \int_{0}^{\infty} \sigma^{-2} p(X,\sigma) d\sigma\)
  • 分母:\(\int_{0}^{\infty} \sigma^{-(n+3)} \cdot \sigma^n p(X,\sigma) d\sigma = \int_{0}^{\infty} \sigma^{-3} p(X,\sigma) d\sigma\)

因此得到:

\[\widehat{\sigma}^*(X) = \frac{\int_{0}^{\infty} \sigma^{-2} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-3} p(X,\sigma) d\sigma} \]

对于\(Z_1=-1\)(即\(X_1<0\))的情形,\(|X_1|=-X_1\),重复上述推导过程,最终会得到完全相同的公式,因此Pitman积分公式对所有样本都成立,定理4.3.2得证。


四、Pitman积分公式的推广:\(\sigma^r\)的最优同变估计

推论:\(\sigma^r\)的Pitman积分公式

推论内容:对于尺度参数的幂次\(\sigma^r\)\(r\)为任意实数),在相对均方损失下,其最优同变估计可表示为:

\[\delta^*(X) = \frac{\int_{0}^{\infty} \sigma^{-(r+1)} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-(2r+1)} p(X,\sigma) d\sigma} \]

推论意义:将Pitman积分公式推广到任意幂次的尺度参数估计,覆盖了方差\(\sigma^2\)\(r=2\))、精度\(1/\sigma^2\)\(r=-2\))、标准差\(\sigma\)\(r=1\))等所有实际应用场景,是最通用的形式。


推论的证明思路

我们取\(\sigma^r\)的一个初始同变估计为\(|X_1|^r\),根据上一节的推论3,\(\sigma^r\)的最优同变估计为:

\[\delta^*(X) = \frac{E_1\left( |X_1|^r \mid Z \right)}{E_1\left( |X_1|^{2r} \mid Z \right)} \cdot |X_1|^r \]

重复定理4.3.2的推导过程,仅需将积分中的\(u^n\)替换为\(u^{n+r-1}\)\(u^{n+1}\)替换为\(u^{n+2r-1}\),最终通过相同的变量替换,即可得到上述推广公式,推导过程完全一致,此处不再赘述。


五、Pitman积分公式的应用实例

我们用经典例题验证Pitman积分公式的便利性,对比之前的方法,体会其标准化计算的优势。

例1:指数分布\(Exp(1/\sigma)\)\(\sigma\)最优同变估计

指数分布的样本联合密度为:

\[p(X,\sigma) = \prod_{i=1}^n \frac{1}{\sigma} e^{-X_i/\sigma} I\{X_i≥0\} = \frac{1}{\sigma^n} e^{-\frac{T}{\sigma}} I\{X_{(1)}≥0\}, \quad T=\sum_{i=1}^n X_i \]

代入Pitman积分公式(\(r=1\)):

  • 分子:\(\int_{0}^{\infty} \sigma^{-2} \cdot \frac{1}{\sigma^n} e^{-\frac{T}{\sigma}} d\sigma = \int_{0}^{\infty} \sigma^{-(n+2)} e^{-\frac{T}{\sigma}} d\sigma\)
  • 分母:\(\int_{0}^{\infty} \sigma^{-3} \cdot \frac{1}{\sigma^n} e^{-\frac{T}{\sigma}} d\sigma = \int_{0}^{\infty} \sigma^{-(n+3)} e^{-\frac{T}{\sigma}} d\sigma\)

做变量替换\(u = \frac{T}{\sigma}\),即\(\sigma = \frac{T}{u}\)\(d\sigma = -\frac{T}{u^2} du\),代入计算:

  • 分子:\(T^{-(n+1)} \int_{0}^{\infty} u^{n} e^{-u} du = T^{-(n+1)} \Gamma(n+1)\)
  • 分母:\(T^{-(n+2)} \int_{0}^{\infty} u^{n+1} e^{-u} du = T^{-(n+2)} \Gamma(n+2)\)

因此最优估计为:

\[\widehat{\sigma}^*(X) = T \cdot \frac{\Gamma(n+1)}{\Gamma(n+2)} = \frac{T}{n+1} \]

和之前用完备充分统计量得到的结果完全一致,且无需寻找充分统计量,计算过程完全标准化。


例2:正态分布\(N(0,\sigma^2)\)\(\sigma^2\)最优同变估计

正态分布\(N(0,\sigma^2)\)的样本联合密度为:

\[p(X,\sigma) = \frac{1}{(2\pi)^{n/2} \sigma^n} e^{-\frac{T}{2\sigma^2}}, \quad T=\sum_{i=1}^n X_i^2 \]

估计\(\sigma^2\)\(r=2\),代入推广的Pitman积分公式:

  • 分子:\(\int_{0}^{\infty} \sigma^{-(2+1)} p(X,\sigma) d\sigma = \frac{1}{(2\pi)^{n/2}} \int_{0}^{\infty} \sigma^{-(n+3)} e^{-\frac{T}{2\sigma^2}} d\sigma\)
  • 分母:\(\int_{0}^{\infty} \sigma^{-(4+1)} p(X,\sigma) d\sigma = \frac{1}{(2\pi)^{n/2}} \int_{0}^{\infty} \sigma^{-(n+5)} e^{-\frac{T}{2\sigma^2}} d\sigma\)

做变量替换\(u = \frac{T}{2\sigma^2}\),计算后可得:

\[\widehat{\sigma^2}^*(X) = \frac{T}{n+2} \]

和之前的结论完全一致,再次验证了公式的有效性。


六、核心知识点归纳总结表

表1 核心引理汇总

引理编号 核心结论 核心作用
4.3.5 给出\(X_1|Z_2,\dots,Z_n\)的条件分布,核心是n维变换的雅可比行列式计算 解决连续型最大不变量对应的条件分布求解问题
4.3.6 给出\(X_1|Z_1,Z_2,\dots,Z_n\)的条件分布,处理离散分量\(Z_1=\pm1\)的截断效应 得到完整最大不变量对应的条件分布,为条件期望计算奠定基础

表2 核心定理与推论汇总

定理/推论 核心公式 适用场景 核心优势
Pitman积分公式(\(\sigma\) \(\widehat{\sigma}^*(X) = \frac{\int_{0}^{\infty} \sigma^{-2} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-3} p(X,\sigma) d\sigma}\) 尺度参数\(\sigma\)的最优同变估计 无需推导最大不变量、条件分布,仅需样本密度积分即可求解
推广公式(\(\sigma^r\) \(\delta^*(X) = \frac{\int_{0}^{\infty} \sigma^{-(r+1)} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-(2r+1)} p(X,\sigma) d\sigma}\) 任意幂次尺度参数\(\sigma^r\)的最优同变估计 通用形式,覆盖方差、精度、标准差等所有实际场景

表3 关键变换与技巧汇总

变换/技巧 应用场景 核心作用
n维线性变换与雅可比行列式 引理4.3.5的联合分布推导 \((X_1,\dots,X_n)\)变换为\((X_1,Z_2,\dots,Z_n)\),得到联合密度
变量替换\(u=X_1/t\) Pitman积分公式的核心推导 将积分中的\(f(u,uZ_2,\dots,uZ_n)\)转化为\(f(X/t)\),消去最大不变量
变量替换\(u=T/\sigma\) 积分计算 将指数型积分转化为Gamma函数,快速得到积分结果

七、资深研究员的教学总结

  1. Pitman积分公式的本质:它是尺度参数分布族的对称性与贝叶斯思想结合的产物,等价于取\(\sigma\)的无信息先验\(\pi(\sigma)=1/\sigma\)时,\(\sigma\)的后验期望,这也是其形式简洁、计算标准化的深层原因。
  2. 计算的标准化优势:无论是什么尺度参数分布,求解最优同变估计的步骤完全固定:①写出样本联合密度\(p(X,\sigma)\);②代入Pitman积分公式;③通过变量替换计算积分。无需针对不同分布寻找充分统计量,大幅降低了学习和应用的门槛。
  3. 与Pitman定理的关系:Pitman积分公式是上一节Pitman定理的显式化,二者理论等价,前者适合实际计算,后者适合理论推导,互为补充。
  4. 应用注意事项:使用公式时需保证分子、分母的积分收敛,绝大多数常见的尺度参数分布(指数、正态、均匀、瑞利等)都满足该条件。

尺度参数最优同变估计例题 全流程详解

我们将基于上一节推导的Pitman积分公式,完整演示3个典型分布的最优同变估计求解过程,拆解每一步的逻辑细节、计算技巧与结果意义。

首先回顾核心工具:对于尺度参数\(\sigma\)(例题中记为\(\theta\)),在相对均方损失下,其最优同变估计的Pitman积分公式为:

\[\widehat{\sigma}^*(X) = \frac{\int_{0}^{\infty} \sigma^{-2} p(X,\sigma) d\sigma}{\int_{0}^{\infty} \sigma^{-3} p(X,\sigma) d\sigma} \tag{4.3.10} \]

其中\(p(X,\sigma)\)为样本联合概率密度,该公式的核心优势是无需推导最大不变量、条件分布,仅通过密度积分即可标准化求解最优估计。


例4.3.5 均匀分布\(R(0,\theta)\)\(\theta\)最优同变估计

步骤1:验证尺度参数分布族

均匀分布\(X_1 \sim R(0,\theta)\)的单样本密度为:

\[p(x_1,\theta) = \frac{1}{\theta} I\{0 \leq x_1 \leq \theta\} = \frac{1}{\theta} f\left( \frac{x_1}{\theta} \right) \]

其中\(f(t)=I\{0 \leq t \leq 1\}\),完全符合尺度参数分布族的标准形式,\(\theta\)为尺度参数。

步骤2:写出样本联合密度

\(X_1,\dots,X_n\)独立同分布,记次序统计量\(X_{(n)} = \max\{X_1,\dots,X_n\}\)(样本最大值)、\(X_{(1)} = \min\{X_1,\dots,X_n\}\)(样本最小值),则联合密度为:

\[p(X,\theta) = \prod_{i=1}^n \frac{1}{\theta} I\{0 \leq X_i \leq \theta\} = \frac{1}{\theta^n} I\{0 \leq X_{(1)}\} I\{X_{(n)} \leq \theta\} \]

核心逻辑:所有样本落在\([0,\theta]\)内,等价于「样本最小值非负、样本最大值不超过\(\theta\)」,这是后续确定积分上下限的关键。

步骤3:代入Pitman公式,化简表达式

将联合密度代入(4.3.10)式,分子分母的公共常数项\(\frac{1}{\theta^n}\)可直接约去:

\[\widehat{\theta}^*(X) = \frac{\int_{0}^{\infty} \theta^{-2} \cdot \frac{1}{\theta^n} I\{0 \leq X_{(n)} \leq \theta\} d\theta}{\int_{0}^{\infty} \theta^{-3} \cdot \frac{1}{\theta^n} I\{0 \leq X_{(n)} \leq \theta\} d\theta} = \frac{\int_{0}^{\infty} \theta^{-(n+2)} I\{X_{(n)} \leq \theta\} d\theta}{\int_{0}^{\infty} \theta^{-(n+3)} I\{X_{(n)} \leq \theta\} d\theta} \]

示性函数处理\(I\{X_{(n)} \leq \theta\}\)表示仅当\(\theta \geq X_{(n)}\)时,被积函数非零,因此积分上下限从\([0,+\infty)\)简化为\([X_{(n)}, +\infty)\)

\[\widehat{\theta}^*(X) = \frac{\int_{X_{(n)}}^{\infty} \theta^{-(n+2)} d\theta}{\int_{X_{(n)}}^{\infty} \theta^{-(n+3)} d\theta} \]

步骤4:计算幂函数积分

对于无穷区间的幂函数积分,有通用公式:\(\int_{a}^{\infty} x^k dx = \frac{a^{k+1}}{-(k+1)}\)(要求\(k < -1\),此处\(-(n+2) < -1\)\(-(n+3) < -1\),积分收敛)。

  • 分子积分:\(\int_{X_{(n)}}^{\infty} \theta^{-(n+2)} d\theta = \frac{X_{(n)}^{-(n+1)}}{n+1}\)
  • 分母积分:\(\int_{X_{(n)}}^{\infty} \theta^{-(n+3)} d\theta = \frac{X_{(n)}^{-(n+2)}}{n+2}\)

步骤5:化简得到最终结果

分子分母相除,\(X_{(n)}\)的幂次约去,得到:

\[\widehat{\theta}^*(X) = \frac{\frac{X_{(n)}^{-(n+1)}}{n+1}}{\frac{X_{(n)}^{-(n+2)}}{n+2}} = \frac{n+2}{n+1} X_{(n)} \]

结果解读

  • \(\theta\)的最大似然估计(MLE)为\(X_{(n)}\),无偏估计为\(\frac{n+1}{n}X_{(n)}\),二者均为同变估计;
  • 在相对均方损失下,我们得到的最优同变估计\(\frac{n+2}{n+1}X_{(n)}\)风险更小,优于MLE和无偏估计。

例4.3.6 拉普拉斯(Laplace)分布的\(\sigma\)最优同变估计

步骤1:验证尺度参数分布族

拉普拉斯分布(双指数分布)的单样本密度为:

\[p(x_1,\sigma) = \frac{1}{2\sigma} e^{-\frac{|x_1|}{\sigma}} = \frac{1}{\sigma} f\left( \frac{x_1}{\sigma} \right) \]

其中\(f(t) = \frac{1}{2}e^{-|t|}\),符合尺度参数分布族的标准形式,\(\sigma\)为尺度参数。

步骤2:写出样本联合密度

\(X_1,\dots,X_n\)独立同分布,记\(A = \sum_{i=1}^n |X_i|\)(样本绝对值和),则联合密度为:

\[p(X,\sigma) = \prod_{i=1}^n \frac{1}{2\sigma} e^{-\frac{|X_i|}{\sigma}} = \frac{1}{(2\sigma)^n} e^{-\frac{1}{\sigma}\sum_{i=1}^n |X_i|} = \frac{1}{(2\sigma)^n} e^{-\frac{A}{\sigma}} \]

步骤3:代入Pitman公式,化简表达式

将联合密度代入(4.3.10)式,分子分母的公共常数项\(\frac{1}{2^n}\)可直接约去:

\[\widehat{\sigma}^*(X) = \frac{\int_{0}^{\infty} \sigma^{-2} \cdot \frac{1}{(2\sigma)^n} e^{-\frac{A}{\sigma}} d\sigma}{\int_{0}^{\infty} \sigma^{-3} \cdot \frac{1}{(2\sigma)^n} e^{-\frac{A}{\sigma}} d\sigma} = \frac{\int_{0}^{\infty} \sigma^{-(n+2)} e^{-\frac{A}{\sigma}} d\sigma}{\int_{0}^{\infty} \sigma^{-(n+3)} e^{-\frac{A}{\sigma}} d\sigma} \]

步骤4:变量替换,转化为Gamma函数积分

对于形如\(\int_{0}^{\infty} \sigma^k e^{-\frac{c}{\sigma}} d\sigma\)的积分,标准处理方法是做倒数变量替换:令\(t = \frac{1}{\sigma}\),即\(\sigma = \frac{1}{t}\),则\(d\sigma = -\frac{1}{t^2} dt\),积分上下限从\(\sigma:0\to\infty\)变为\(t:\infty\to0\),交换上下限消去负号。

  • 分子积分替换:

    \[\int_{0}^{\infty} \sigma^{-(n+2)} e^{-\frac{A}{\sigma}} d\sigma = \int_{0}^{\infty} t^{n+2} e^{-A t} \cdot \frac{1}{t^2} dt = \int_{0}^{\infty} t^n e^{-A t} dt \]

  • 分母积分替换:

    \[\int_{0}^{\infty} \sigma^{-(n+3)} e^{-\frac{A}{\sigma}} d\sigma = \int_{0}^{\infty} t^{n+3} e^{-A t} \cdot \frac{1}{t^2} dt = \int_{0}^{\infty} t^{n+1} e^{-A t} dt \]

此时积分变为Gamma函数的标准形式:\(\int_{0}^{\infty} t^{k} e^{-c t} dt = \frac{\Gamma(k+1)}{c^{k+1}}\),其中Gamma函数满足核心性质\(\Gamma(k+1)=k\Gamma(k)\),对正整数\(n\)\(\Gamma(n+1)=n!\)

  • 分子积分结果:\(\int_{0}^{\infty} t^n e^{-A t} dt = \frac{\Gamma(n+1)}{A^{n+1}}\)
  • 分母积分结果:\(\int_{0}^{\infty} t^{n+1} e^{-A t} dt = \frac{\Gamma(n+2)}{A^{n+2}}\)

步骤5:化简得到最终结果

分子分母相除,\(A\)的幂次约去,结合Gamma函数性质\(\Gamma(n+2)=(n+1)\Gamma(n+1)\),得到:

\[\widehat{\sigma}^*(X) = \frac{\frac{\Gamma(n+1)}{A^{n+1}}}{\frac{\Gamma(n+2)}{A^{n+2}}} = A \cdot \frac{\Gamma(n+1)}{\Gamma(n+2)} = \frac{A}{n+1} = \frac{1}{n+1}\sum_{i=1}^n |X_i| \]

结果解读

  • 拉普拉斯分布中,\(\sigma\)的MLE和无偏估计均为\(\frac{1}{n}\sum_{i=1}^n |X_i|\)
  • 最优同变估计为\(\frac{1}{n+1}\sum_{i=1}^n |X_i|\),在相对均方损失下风险更小,优于MLE和无偏估计。

例4.3.7 Pareto型分布的\(\theta\)最优同变估计

步骤1:验证尺度参数分布族

单样本密度为\(p(x_1,\theta) = 2\theta^2 x_1^{-3} I\{x_1 \geq \theta > 0\}\),将其改写为尺度参数标准形式:

\[p(x_1,\theta) = \frac{1}{\theta} \cdot 2 \left( \frac{x_1}{\theta} \right)^{-3} I\left\{ \frac{x_1}{\theta} \geq 1 \right\} = \frac{1}{\theta} f\left( \frac{x_1}{\theta} \right) \]

其中\(f(t)=2t^{-3}I\{t\geq1\}\),符合尺度参数分布族的标准形式,\(\theta\)为尺度参数。

步骤2:写出样本联合密度

\(X_1,\dots,X_n\)独立同分布,记次序统计量\(X_{(1)} = \min\{X_1,\dots,X_n\}\)(样本最小值),则联合密度为:

\[p(X,\theta) = \prod_{i=1}^n 2\theta^2 X_i^{-3} I\{X_i \geq \theta\} = 2^n \theta^{2n} \left( \prod_{i=1}^n X_i^{-3} \right) I\{X_{(1)} \geq \theta > 0\} \]

核心逻辑:所有样本大于等于\(\theta\),等价于「样本最小值\(X_{(1)} \geq \theta\)」,这是确定积分上下限的关键。

步骤3:代入Pitman公式,化简表达式

将联合密度代入(4.3.10)式,分子分母的公共常数项\(2^n \prod_{i=1}^n X_i^{-3}\)可直接约去:

\[\widehat{\theta}^*(X) = \frac{\int_{0}^{\infty} \theta^{-2} \cdot 2^n \theta^{2n} \prod X_i^{-3} I\{X_{(1)} \geq \theta\} d\theta}{\int_{0}^{\infty} \theta^{-3} \cdot 2^n \theta^{2n} \prod X_i^{-3} I\{X_{(1)} \geq \theta\} d\theta} = \frac{\int_{0}^{\infty} \theta^{2n-2} I\{X_{(1)} \geq \theta\} d\theta}{\int_{0}^{\infty} \theta^{2n-3} I\{X_{(1)} \geq \theta\} d\theta} \]

示性函数处理\(I\{X_{(1)} \geq \theta\}\)表示仅当\(\theta \leq X_{(1)}\)时,被积函数非零,因此积分上下限从\([0,+\infty)\)简化为\([0, X_{(1)}]\)

\[\widehat{\theta}^*(X) = \frac{\int_{0}^{X_{(1)}} \theta^{2n-2} d\theta}{\int_{0}^{X_{(1)}} \theta^{2n-3} d\theta} \]

步骤4:计算幂函数积分

对于有限区间的幂函数积分,通用公式为:\(\int_{0}^{a} x^k dx = \frac{a^{k+1}}{k+1}\)(要求\(k > -1\),此处\(2n-2 > -1\)\(2n-3 > -1\)\(n\geq1\)时积分收敛)。

  • 分子积分:\(\int_{0}^{X_{(1)}} \theta^{2n-2} d\theta = \frac{X_{(1)}^{2n-1}}{2n-1}\)
  • 分母积分:\(\int_{0}^{X_{(1)}} \theta^{2n-3} d\theta = \frac{X_{(1)}^{2n-2}}{2n-2}\)

步骤5:化简得到最终结果

分子分母相除,\(X_{(1)}\)的幂次约去,得到:

\[\widehat{\theta}^*(X) = \frac{\frac{X_{(1)}^{2n-1}}{2n-1}}{\frac{X_{(1)}^{2n-2}}{2n-2}} = \frac{2n-2}{2n-1} X_{(1)} \]

结果解读

  • 该分布中\(\theta\)的MLE为\(X_{(1)}\),无偏估计为\(\frac{2n-1}{2n-2}X_{(1)}\)
  • 最优同变估计为\(\frac{2n-2}{2n-1}X_{(1)}\),在相对均方损失下风险更小,优于MLE和无偏估计。

核心知识点归纳总结表

例题编号 分布类型 待估尺度参数 联合密度核心项 最优同变估计 最大似然估计(MLE) 无偏估计
4.3.5 均匀分布\(R(0,\theta)\) \(\theta\) \(\frac{1}{\theta^n}I\{X_{(n)}\leq\theta\}\) \(\frac{n+2}{n+1}X_{(n)}\) \(X_{(n)}\) \(\frac{n+1}{n}X_{(n)}\)
4.3.6 拉普拉斯分布\(\frac{1}{2\sigma}e^{-|x|/\sigma}\) \(\sigma\) \(\frac{1}{\sigma^n}e^{-\frac{1}{\sigma}\sum|X_i|}\) \(\frac{1}{n+1}\sum_{i=1}^n |X_i|\) \(\frac{1}{n}\sum_{i=1}^n |X_i|\) \(\frac{1}{n}\sum_{i=1}^n |X_i|\)
4.3.7 Pareto型分布\(2\theta^2x^{-3}I\{x\geq\theta\}\) \(\theta\) \(\theta^{2n}I\{X_{(1)}\geq\theta\}\) \(\frac{2n-2}{2n-1}X_{(1)}\) \(X_{(1)}\) \(\frac{2n-1}{2n-2}X_{(1)}\)

教学总结

  1. 标准化求解流程:所有尺度参数分布族的最优同变估计,都遵循「验证尺度分布→写联合密度→代入Pitman公式→处理示性函数定积分限→计算积分→化简结果」的固定流程,无需针对不同分布设计特殊方法,这是Pitman积分公式的核心价值。
  2. 示性函数是关键细节:带区间约束的分布(均匀、Pareto),核心是通过次序统计量将示性函数转化为积分的有效区间,这是初学者最容易出错的环节。
  3. 积分计算通用技巧:指数型积分(拉普拉斯、指数、正态)用倒数变量替换转化为Gamma函数,幂函数型积分(均匀、Pareto)直接用幂函数积分公式,覆盖了绝大多数常见分布的计算场景。
  4. 最优性的本质:最优同变估计通过牺牲无偏性,换来了相对均方损失下的最小风险,是统计决策中「偏差-方差权衡」的经典体现;若实际应用关注相对误差而非绝对无偏,最优同变估计是更优的选择。

posted on 2026-02-25 23:35  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航