夫君子之行，静以修身，俭以养德；非澹泊无以明志，非宁静无以致远。夫学须静也，才须学也；非学无以广才，非志无以成学。怠慢则不能励精，险躁则不能冶性。年与时驰，意与岁去，遂成枯落，多不接世。悲守穷庐，将复何及！

4.4.1位置尺度参数分布族与线性变换群

位置尺度参数分布族与线性变换群详细讲解与推导

一、核心基础：位置尺度参数分布族的定义与本质

1. 定义

设n维随机向量 $X=(X_1,X_2,\dots,X_n)^\mathrm{T}$，若其概率密度函数可表示为如下形式，则称其服从位置尺度参数分布族：

\[p(x;\mu,\sigma) = \frac{1}{\sigma^n} f\left( \frac{x_1 - \mu}{\sigma}, \frac{x_2 - \mu}{\sigma}, \dots, \frac{x_n - \mu}{\sigma} \right) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right) \]

其中：

$\mu \in (-\infty,+\infty)$ 为位置参数：作用是对分布进行整体平移，不改变分布的形状与离散程度；
$\sigma \in (0,+\infty)$ 为尺度参数：作用是对分布进行整体缩放，不改变分布的位置与形状；
$\mathbf{1}=(1,1,\dots,1)^\mathrm{T}$ 为n维全1列向量，保证每个样本分量都完成平移操作；
$f(\cdot)$ 为标准分布的密度函数：当 $\mu=0,\sigma=1$ 时，$X \sim f(x_1,\dots,x_n)$，称为标准位置尺度分布（如标准正态分布 $N(0,1)$、标准均匀分布 $R(0,1)$ 均为典型的标准分布）。

2. 核心性质：标准化变换的分布不变性

定理：若 $X \sim P_{(\mu,\sigma)}$（位置尺度分布族），则 $Y=\frac{X - \mu \mathbf{1}}{\sigma} \sim P_{(0,1)}$（标准分布）；反之，若 $Y \sim P_{(0,1)}$，则 $X=\sigma Y + \mu \mathbf{1} \sim P_{(\mu,\sigma)}$。

详细证明：

已知 $X$ 的密度为 $p_X(x) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right)$，做线性变换 $Y = \frac{X - \mu \mathbf{1}}{\sigma}$，其逆变换为 $X = \sigma Y + \mu \mathbf{1}$。

计算变换的Jacobi行列式：
对每个分量，$x_i = \sigma y_i + \mu$，因此Jacobi矩阵为n阶对角矩阵，对角元均为 $\sigma$，行列式的绝对值为：

\[|J| = \left| \frac{\partial(x_1,\dots,x_n)}{\partial(y_1,\dots,y_n)} \right| = \sigma^n \]
由随机变量密度变换公式 $p_Y(y) = p_X(\sigma y + \mu \mathbf{1}) \cdot |J|$，代入 $p_X$ 的表达式：

\[p_X(\sigma y + \mu \mathbf{1}) = \frac{1}{\sigma^n} f\left( \frac{(\sigma y + \mu \mathbf{1}) - \mu \mathbf{1}}{\sigma} \right) = \frac{1}{\sigma^n} f(y) \]
因此：

\[p_Y(y) = \frac{1}{\sigma^n} f(y) \cdot \sigma^n = f(y) \]
即 $Y$ 服从标准分布 $P_{(0,1)}$，正向命题得证。

反向命题同理：对 $Y \sim f(y)$，做变换 $X=\sigma Y + \mu \mathbf{1}$，Jacobi行列式绝对值为 $|J|=\frac{1}{\sigma^n}$，代入密度变换公式可得 $p_X(x) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right)$，即 $X \sim P_{(\mu,\sigma)}$。

二、线性变换群的定义与性质

变换群是满足封闭性、结合律、单位元存在、逆元存在的一组变换，位置尺度分布族对应的线性变换群，由平移变换（位置变换）和尺度变换（相似变换）组合而成，也叫仿射线性变换群。

1. 样本空间的线性变换群 $G$

设样本空间 $\mathcal{X}$ 为n维欧氏空间，定义变换集合 $G = \{ g_{[m,k]} \mid m \in \mathbb{R}, k>0 \}$，其中变换 $g_{[m,k]}$ 对样本的作用为：

\[g_{[m,k]} x = m \mathbf{1} + k x \quad \text{或} \quad g_{[m,k]} x_i = m + k x_i, \ i=1,\dots,n \]

$m$ 对应平移变换，实现样本的整体平移；
$k>0$ 对应尺度变换，实现样本的整体缩放，保证尺度为正，与 $\sigma>0$ 匹配。

群性质的验证：

封闭性：任取 $g_{[m_1,k_1]}, g_{[m_2,k_2]} \in G$，变换的复合为：

\[g_{[m_2,k_2]} \circ g_{[m_1,k_1]} (x) = g_{[m_2,k_2]}(m_1 \mathbf{1} + k_1 x) = (m_2 + k_2 m_1) \mathbf{1} + (k_2 k_1) x = g_{[m_2 + k_2 m_1, k_2 k_1]} x \]
结果仍属于 $G$，封闭性成立。
结合律：变换的复合天然满足结合律，即 $(g_1 \circ g_2) \circ g_3 = g_1 \circ (g_2 \circ g_3)$。
单位元存在：取 $m=0,k=1$，则 $g_{[0,1]} x = x$，为恒等变换，是群的单位元。
逆元存在：对任意 $g_{[m,k]}$，取逆变换 $g_{[-m/k, 1/k]}$，则：

\[g_{[-m/k, 1/k]} \circ g_{[m,k]} (x) = -\frac{m}{k} \mathbf{1} + \frac{1}{k}(m \mathbf{1} + k x) = x \]
逆元存在。

因此 $G$ 是一个群，称为样本空间的线性变换群。

2. 参数空间的导出群 $\overline{G}$

样本空间的变换会诱导出参数空间的变换，称为导出变换，所有导出变换构成的群称为参数空间的导出群 $\overline{G}$。

核心定理：位置尺度分布族是线性变换群下的不变分布族

定理：若 $X \sim P_{(\mu,\sigma)}$，对任意 $g_{[m,k]} \in G$，令 $Y = g_{[m,k]} X = m \mathbf{1} + k X$，则 $Y \sim P_{(\mu',\sigma')}$，其中 $\mu' = m + k\mu$，$\sigma' = k\sigma$。

详细证明：

已知 $X$ 的密度为 $p_X(x) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right)$，变换 $Y = m \mathbf{1} + k X$ 的逆变换为 $X = \frac{Y - m \mathbf{1}}{k}$。

计算Jacobi行列式：
对每个分量 $x_i = \frac{y_i - m}{k}$，Jacobi矩阵为对角矩阵，对角元均为 $\frac{1}{k}$，行列式绝对值为：

\[|J| = \left( \frac{1}{k} \right)^n = k^{-n} \]
代入密度变换公式 $p_Y(y) = p_X\left( \frac{y - m \mathbf{1}}{k} \right) \cdot |J|$，化简密度的核心项：

\[\frac{\frac{y_i - m}{k} - \mu}{\sigma} = \frac{y_i - m - k\mu}{k\sigma} = \frac{y_i - (m + k\mu)}{k\sigma} \]
令 $\mu' = m + k\mu$，$\sigma' = k\sigma$，则上式可写为 $\frac{y_i - \mu'}{\sigma'}$。
代入完整密度表达式：

\[p_X\left( \frac{y - m \mathbf{1}}{k} \right) = \frac{1}{\sigma^n} f\left( \frac{y - \mu' \mathbf{1}}{\sigma'} \right) \]
因此：

\[p_Y(y) = \frac{1}{\sigma^n} f\left( \frac{y - \mu' \mathbf{1}}{\sigma'} \right) \cdot k^{-n} = \frac{1}{(k\sigma)^n} f\left( \frac{y - \mu' \mathbf{1}}{\sigma'} \right) = \frac{1}{(\sigma')^n} f\left( \frac{y - \mu' \mathbf{1}}{\sigma'} \right) \]
即 $Y \sim P_{(\mu',\sigma')}$，证明完成。

导出群的定义

上述参数的变换即为导出变换，记为 $\overline{g}_{[m,k]}$，其对参数的作用为：

\[\overline{g}_{[m,k]} (\mu,\sigma) = (\mu',\sigma') = (m + k\mu, k\sigma) \]

所有导出变换构成的集合 $\overline{G} = \{ \overline{g}_{[m,k]} \mid m \in \mathbb{R}, k>0 \}$ 同样满足群的4条性质，称为参数空间的导出群，与样本空间的变换群 $G$ 同态。

三、同变估计的定义与约束条件

同变估计是不变性原理在参数估计中的核心应用：若样本经过变换 $g$，则估计量也应经过对应的导出变换 $g^*$，即满足同变条件：

\[\delta(gx) = g^* \delta(x) \]

其中 $\delta(x)$ 为估计量，$g^*$ 为判决空间的导出变换。我们分两种核心场景讨论：

1. 场景1：估计参数 $(\mu,\sigma)$

此时判决空间 $\mathcal{D}$ 与参数空间 $\Theta$ 完全一致，因此判决空间的导出群 $G^* = \overline{G}$，即 $g^*_{[m,k]} = \overline{g}_{[m,k]}$。

记 $\hat{\mu}(x)$ 为 $\mu$ 的估计量，$\hat{\sigma}(x)$ 为 $\sigma$ 的估计量，即 $\delta(x) = (\hat{\mu}(x), \hat{\sigma}(x))$。将同变条件展开：

左边：$\delta(g_{[m,k]}x) = \left( \hat{\mu}(m\mathbf{1} + kx), \hat{\sigma}(m\mathbf{1} + kx) \right)$
右边：$g^*_{[m,k]} \delta(x) = \overline{g}_{[m,k]} (\hat{\mu}(x), \hat{\sigma}(x)) = \left( m + k\hat{\mu}(x), k\hat{\sigma}(x) \right)$

左右分量对应相等，得到两个核心同变条件：

位置参数 $\mu$ 的同变条件：
\[\hat{\mu}(m\mathbf{1} + kx) = m + k\hat{\mu}(x), \quad \forall m \in \mathbb{R}, k>0 \]
尺度参数 $\sigma$ 的同变条件：
\[\hat{\sigma}(m\mathbf{1} + kx) = k\hat{\sigma}(x), \quad \forall m \in \mathbb{R}, k>0 \]

同变条件的标准化形式

取特殊值 $k = \frac{1}{\sigma}$，$m = -\frac{\mu}{\sigma}$，代入同变条件，可得到更具实用价值的标准化形式：

对 $\mu$ 的估计：
\[\hat{\mu}\left( \frac{x - \mu \mathbf{1}}{\sigma} \right) = \frac{\hat{\mu}(x) - \mu}{\sigma} \]
对 $\sigma$ 的估计：
\[\hat{\sigma}\left( \frac{x - \mu \mathbf{1}}{\sigma} \right) = \frac{\hat{\sigma}(x)}{\sigma} \]

关键意义：我们已证明 $Z=\frac{X - \mu \mathbf{1}}{\sigma} \sim P_{(0,1)}$，与参数 $\mu,\sigma$ 无关，因此同变估计的标准化形式是枢轴量，这是求解最小风险同变估计（MREE）的核心约束。

2. 场景2：估计参数 $\sigma^r$（$r$ 为常数，如 $r=2$ 估计方差）

此时判决空间 $\mathcal{D} = (0,+\infty)$，参数变换下 $\sigma^r \to (\sigma')^r = (k\sigma)^r = k^r \sigma^r$，因此判决空间的导出变换为：

\[\tilde{g}^*_{[m,k]} d = k^r d \]

其中 $d = \widehat{\sigma^r}(x)$ 为 $\sigma^r$ 的估计量。

代入同变条件 $\delta(gx) = g^* \delta(x)$，得到 $\sigma^r$ 的同变条件：

\[\widehat{\sigma^r}(m\mathbf{1} + kx) = k^r \widehat{\sigma^r}(x), \quad \forall m \in \mathbb{R}, k>0 \]

四、同变损失函数的形式与推导

同变损失函数是与同变估计匹配的损失函数，满足变换不变性：参数经过导出变换、判决经过对应导出变换后，损失函数的值保持不变，即：

\[L(\theta; d) = L(\overline{g}\theta; g^* d), \quad \forall g \in G \]

1. 位置参数 $\mu$ 的同变损失函数

设 $d_\mu$ 为 $\mu$ 的估计，损失函数满足不变性：

\[L(\mu,\sigma; d_\mu) = L(m + k\mu, k\sigma; m + k d_\mu), \quad \forall m \in \mathbb{R}, k>0 \]

取特殊值 $k = \frac{1}{\sigma}$，$m = -\frac{\mu}{\sigma}$，代入上式化简：

\[L(\mu,\sigma; d_\mu) = L\left( 0, 1; \frac{d_\mu - \mu}{\sigma} \right) = \rho\left( \frac{d_\mu - \mu}{\sigma} \right) \]

结论：$\mu$ 的同变损失函数，一定是标准化估计误差 $\frac{d_\mu - \mu}{\sigma}$ 的函数，与 $\mu,\sigma$ 本身无关，仅与相对误差有关。

最常用的均方损失取 $\rho(t) = t^2$，即：

\[L(\mu,\sigma; d_\mu) = \left( \frac{d_\mu - \mu}{\sigma} \right)^2 = \frac{(d_\mu - \mu)^2}{\sigma^2} \]

2. 尺度参数 $\sigma$ 的同变损失函数

设 $d_\sigma$ 为 $\sigma$ 的估计，损失函数满足不变性：

\[L(\mu,\sigma; d_\sigma) = L(m + k\mu, k\sigma; k d_\sigma), \quad \forall m \in \mathbb{R}, k>0 \]

同样取 $k = \frac{1}{\sigma}$，$m = -\frac{\mu}{\sigma}$，代入化简得：

\[L(\mu,\sigma; d_\sigma) = L\left( 0, 1; \frac{d_\sigma}{\sigma} \right) = \rho\left( \frac{d_\sigma}{\sigma} \right) \]

结论：$\sigma$ 的同变损失函数，一定是估计量与真实值的比值 $\frac{d_\sigma}{\sigma}$ 的函数，与 $\mu,\sigma$ 本身无关。

最常用的均方损失取 $\rho(t) = (1-t)^2$，即：

\[L(\mu,\sigma; d_\sigma) = \left( 1 - \frac{d_\sigma}{\sigma} \right)^2 = \frac{(d_\sigma - \sigma)^2}{\sigma^2} \]

3. 参数 $\sigma^r$ 的同变损失函数

设 $d$ 为 $\sigma^r$ 的估计，损失函数满足不变性：

\[L(\mu,\sigma; d) = L(m + k\mu, k\sigma; k^r d), \quad \forall m \in \mathbb{R}, k>0 \]

取 $k = \frac{1}{\sigma}$，$m = -\frac{\mu}{\sigma}$，代入化简得：

\[L(\mu,\sigma; d) = L\left( 0, 1; \frac{d}{\sigma^r} \right) = \rho\left( \frac{d}{\sigma^r} \right) \]

结论：$\sigma^r$ 的同变损失函数，是 $\frac{d}{\sigma^r}$ 的函数，常用均方损失为：

\[L(\mu,\sigma; d) = \left( 1 - \frac{d}{\sigma^r} \right)^2 = \frac{(d - \sigma^r)^2}{\sigma^{2r}} \]

五、核心知识点归纳总结表

模块	核心内容	数学表达	关键性质/意义
位置尺度参数分布族	定义	$p(x;\mu,\sigma) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right)$	$\mu$ 控制平移，$\sigma$ 控制缩放，$f(\cdot)$ 为标准分布密度
	标准化性质	$X \sim P_{(\mu,\sigma)} \implies \frac{X - \mu \mathbf{1}}{\sigma} \sim P_{(0,1)}$	可将任意位置尺度分布转化为与参数无关的标准分布，是同变估计的基础
线性变换群	样本空间变换群 $G$	$g_{[m,k]} x = m\mathbf{1} + kx, \ m\in\mathbb{R},k>0$	由平移+尺度变换构成，满足群的4条性质，是不变性分析的核心对象
	参数空间导出群 $\overline{G}$	$\overline{g}_{[m,k]} (\mu,\sigma) = (m + k\mu, k\sigma)$	样本变换诱导的参数变换，与 $G$ 同态，证明了位置尺度族是不变分布族
	不变分布族	$X \sim P_{(\mu,\sigma)} \implies g_{[m,k]}X \sim P_{(\overline{g}_{[m,k]}(\mu,\sigma))}$	样本经线性变换后，分布仍属于同一位置尺度族，仅参数同步变换
同变估计	$\mu$ 的同变条件	$\hat{\mu}(m\mathbf{1} + kx) = m + k\hat{\mu}(x)$	样本平移/缩放，估计量同步平移/缩放
	$\sigma$ 的同变条件	$\hat{\sigma}(m\mathbf{1} + kx) = k\hat{\sigma}(x)$	样本平移不改变尺度估计，缩放时估计量同步缩放
	$\sigma^r$ 的同变条件	$\widehat{\sigma^r}(m\mathbf{1} + kx) = k^r \widehat{\sigma^r}(x)$	样本平移不改变 $\sigma^r$ 估计，缩放时估计量按 $k^r$ 同步变换
同变损失函数	$\mu$ 的同变损失	$L(\mu,\sigma;d_\mu) = \rho\left( \frac{d_\mu - \mu}{\sigma} \right)$	仅与标准化估计误差有关，常用均方损失为 $\frac{(d_\mu - \mu)^2}{\sigma^2}$
	$\sigma$ 的同变损失	$L(\mu,\sigma;d_\sigma) = \rho\left( \frac{d_\sigma}{\sigma} \right)$	仅与估计值和真实值的比值有关，常用均方损失为 $\frac{(d_\sigma - \sigma)^2}{\sigma^2}$
	$\sigma^r$ 的同变损失	$L(\mu,\sigma;d) = \rho\left( \frac{d}{\sigma^r} \right)$	仅与估计值和真实值的比值有关，常用均方损失为 $\frac{(d - \sigma^r)^2}{\sigma^{2r}}$

位置尺度参数的最优同变估计深度讲解与完整推导

作为深耕数理统计多年的研究员，我将从逻辑本源、完整推导、核心意义三个维度，逐层拆解位置尺度参数最优同变估计的全链条知识，确保你不仅懂公式，更懂背后的统计思想。

一、研究框架与核心前提

我们的研究建立在以下基础框架上，所有推导均围绕该框架展开：

核心要素	具体定义与说明
分布族	位置尺度参数分布族：$X=(X_1,\dots,X_n)^\mathrm{T} \sim p(x;\mu,\sigma) = \frac{1}{\sigma^n}f\left( \frac{x-\mu\mathbf{1}}{\sigma} \right)$，其中 $\mu\in\mathbb{R}$ 为位置参数，$\sigma>0$ 为尺度参数，$\mathbf{1}$ 为n维全1向量
变换群	线性变换群 $G=\{g_{[m,k]}: g_{[m,k]}x = m\mathbf{1}+kx, m\in\mathbb{R},k>0\}$，包含平移变换（$m$）和尺度变换（$k$）
损失函数	均方同变损失： $\mu$ 的损失：$L(\mu,\sigma;d_\mu)=\frac{(d_\mu-\mu)^2}{\sigma^2}$ $\sigma$ 的损失：$L(\mu,\sigma;d_\sigma)=\frac{(d_\sigma-\sigma)^2}{\sigma^2}$
核心目标	在所有满足同变条件的估计量中，找到风险最小的同变估计（MREE，最优同变估计）

前置核心结论回顾

同变条件：
- $\mu$ 的同变估计满足：$\hat{\mu}(m\mathbf{1}+kx) = m + k\hat{\mu}(x)$
- $\sigma$ 的同变估计满足：$\hat{\sigma}(m\mathbf{1}+kx) = k\hat{\sigma}(x)$
标准化性质：若 $X \sim P_{(\mu,\sigma)}$，则 $Z=\frac{X-\mu\mathbf{1}}{\sigma} \sim P_{(0,1)}$（标准分布，与 $\mu,\sigma$ 无关）
不变量定义：统计量 $u(x)$ 若满足 $u(g_{[m,k]}x)=u(x)$，则称其为线性变换群下的不变量（样本平移缩放后，统计量值不变）

二、同变估计的结构刻画：三大核心引理

要找到最优同变估计，首先要刻画所有同变估计的通用形式，这是三大引理的核心价值。

引理4.4.1 同变估计与不变量的关系

引理内容

设 $\hat{\mu}_1(x),\hat{\mu}_2(x)$ 是 $\mu$ 的同变估计，$\hat{\sigma}_1(x),\hat{\sigma}_2(x)$ 是 $\sigma$ 的同变估计，则：

\[u(x) = \frac{\hat{\mu}_1(x)-\hat{\mu}_2(x)}{\hat{\sigma}_1(x)}, \quad v(x) = \frac{\hat{\sigma}_1(x)}{\hat{\sigma}_2(x)} \]

是线性变换群下的不变量。

反之，若 $\hat{\mu}_1(x),\hat{\sigma}_1(x)$ 是同变估计，$u(x),v(x)$ 是不变量，则：

\[\hat{\mu}_2(x) = \hat{\mu}_1(x) + \hat{\sigma}_1(x)u(x), \quad \hat{\sigma}_2(x) = \hat{\sigma}_1(x)v(x) \]

也是同变估计。

完整证明

正向证明：$u(x),v(x)$ 是不变量

对 $u(x)$，代入同变条件：

\[\begin{align*} u(m\mathbf{1}+kx) &= \frac{\hat{\mu}_1(m\mathbf{1}+kx) - \hat{\mu}_2(m\mathbf{1}+kx)}{\hat{\sigma}_1(m\mathbf{1}+kx)} \\ &= \frac{\left[m + k\hat{\mu}_1(x)\right] - \left[m + k\hat{\mu}_2(x)\right]}{k\hat{\sigma}_1(x)} \\ &= \frac{k\left[\hat{\mu}_1(x)-\hat{\mu}_2(x)\right]}{k\hat{\sigma}_1(x)} = u(x) \end{align*} \]

对 $v(x)$，同理代入同变条件：

\[v(m\mathbf{1}+kx) = \frac{\hat{\sigma}_1(m\mathbf{1}+kx)}{\hat{\sigma}_2(m\mathbf{1}+kx)} = \frac{k\hat{\sigma}_1(x)}{k\hat{\sigma}_2(x)} = v(x) \]

因此 $u(x),v(x)$ 满足不变量定义，正向得证。

反向证明：构造的估计量是同变估计

对 $\hat{\mu}_2(x)$，验证同变条件：

\[\begin{align*} \hat{\mu}_2(m\mathbf{1}+kx) &= \hat{\mu}_1(m\mathbf{1}+kx) + \hat{\sigma}_1(m\mathbf{1}+kx) \cdot u(m\mathbf{1}+kx) \\ &= \left[m + k\hat{\mu}_1(x)\right] + k\hat{\sigma}_1(x) \cdot u(x) \\ &= m + k\left[\hat{\mu}_1(x) + \hat{\sigma}_1(x)u(x)\right] = m + k\hat{\mu}_2(x) \end{align*} \]

对 $\hat{\sigma}_2(x)$，同理验证：

\[\hat{\sigma}_2(m\mathbf{1}+kx) = \hat{\sigma}_1(m\mathbf{1}+kx) \cdot v(m\mathbf{1}+kx) = k\hat{\sigma}_1(x) \cdot v(x) = k\hat{\sigma}_2(x) \]

完全满足同变条件，反向得证。

核心意义

该引理揭示：所有同变估计都可以通过一个基准同变估计，叠加不变量的调整得到，将无穷多的同变估计，转化为关于不变量的函数优化问题。

引理4.4.2 不变量的充要条件与最大不变量

核心概念补充：最大不变量

若统计量 $V(x)$ 满足：

自身是不变量；
若 $V(x)=V(y)$，则必存在 $g\in G$ 使得 $y=gx$（两个样本的最大不变量相等，当且仅当它们在同一变换轨道上）。

则称 $V(x)$ 为最大不变量，它是最精细的不变量，所有不变量都可表示为最大不变量的函数。

引理内容

$u(x)$ 是线性变换群下的不变量，当且仅当 $u(x)=\psi(V)$，其中最大不变量：

\[V = V(x) = \left( \frac{x_2-x_1}{|x_2-x_1|}, \frac{x_3-x_1}{x_2-x_1}, \dots, \frac{x_n-x_1}{x_2-x_1} \right)^\mathrm{T} \]

且不变量的分布仅与标准分布有关，与 $\mu,\sigma$ 无关（即辅助统计量）。

完整证明

必要性：不变量必为最大不变量的函数

由不变量定义，对任意 $m,k$，$u(m\mathbf{1}+kx)=u(x)$。取特殊值：

\[k = \frac{1}{|x_2-x_1|}, \quad m = -\frac{x_1}{|x_2-x_1|} \]

对样本做变换 $g_{[m,k]}x$，得到：

第1分量：$m + kx_1 = 0$
第2分量：$m + kx_2 = \frac{x_2-x_1}{|x_2-x_1|} = V_2$
第$i\geq3$分量：$m + kx_i = \frac{x_i-x_1}{|x_2-x_1|} = V_2 \cdot \frac{x_i-x_1}{x_2-x_1} = V_2 V_i$

因此变换后的样本为 $(0, V_2, V_2V_3, \dots, V_2V_n)$，仅与 $V$ 有关。由不变性：

\[u(x) = u(g_{[m,k]}x) = u(0, V_2, V_2V_3, \dots, V_2V_n) = \psi(V) \]

必要性得证。

充分性：最大不变量的函数是不变量

只需证明 $V(g_{[m,k]}x)=V(x)$：

对 $V_i=\frac{x_i-x_1}{x_2-x_1} (i\geq3)$：
\[V_i(gx) = \frac{(m+kx_i)-(m+kx_1)}{(m+kx_2)-(m+kx_1)} = \frac{k(x_i-x_1)}{k(x_2-x_1)} = V_i(x) \]
对 $V_2=\frac{x_2-x_1}{|x_2-x_1|}$，因 $k>0$，故：
\[V_2(gx) = \frac{k(x_2-x_1)}{|k(x_2-x_1)|} = \frac{x_2-x_1}{|x_2-x_1|} = V_2(x) \]

因此 $V(gx)=V(x)$，$V$ 是不变量，故 $u(x)=\psi(V)$ 也是不变量，充分性得证。

最大不变量的验证

若 $V(x)=V(y)$，取 $k=\frac{y_2-y_1}{x_2-x_1}>0$，$m=y_1 - kx_1$，可验证对所有 $i$，$y_i = m + kx_i$，即 $y=g_{[m,k]}x$，满足最大不变量定义。

分布与参数无关的证明

因 $V(x)=V\left( \frac{x-\mu\mathbf{1}}{\sigma} \right)$，而 $\frac{X-\mu\mathbf{1}}{\sigma} \sim P_{(0,1)}$ 与 $\mu,\sigma$ 无关，故 $V(X)$ 的分布仅由标准分布决定，与参数无关，是辅助统计量。

核心意义

该引理将所有不变量统一为最大不变量 $V$ 的函数，且 $V$ 的分布与参数无关，为后续将风险转化为标准分布下的期望奠定了基础。

引理4.4.3 同变估计的通用表达式

引理内容

设 $\hat{\mu}(x),\hat{\sigma}(x)$ 是某一组基准同变估计，则任意同变估计都可表示为：

\[\hat{\mu}^*(x) = \hat{\mu}(x) + \hat{\sigma}(x)\psi(V), \quad \hat{\sigma}^*(x) = \hat{\sigma}(x)\varphi(V) \]

其中 $\psi(V),\varphi(V)$ 是最大不变量 $V$ 的函数。

完整证明

对任意同变估计 $\hat{\mu}^*(x)$，由引理4.4.1，$u(x)=\frac{\hat{\mu}^*(x)-\hat{\mu}(x)}{\hat{\sigma}(x)}$ 是不变量；再由引理4.4.2，不变量必为 $V$ 的函数，记为 $\psi(V)$，因此：

\[\frac{\hat{\mu}^*(x)-\hat{\mu}(x)}{\hat{\sigma}(x)} = \psi(V) \implies \hat{\mu}^*(x) = \hat{\mu}(x) + \hat{\sigma}(x)\psi(V) \]

同理，对 $\hat{\sigma}^*(x)$，$v(x)=\frac{\hat{\sigma}^*(x)}{\hat{\sigma}(x)}$ 是不变量，记为 $\varphi(V)$，故 $\hat{\sigma}^*(x)=\hat{\sigma}(x)\varphi(V)$，证明完成。

核心意义

该引理是整个最优同变估计求解的核心基石：它将“寻找无穷多同变估计中的最优解”，转化为“寻找两个函数 $\psi(\cdot),\varphi(\cdot)$ 使得风险最小”的有限维优化问题，彻底简化了求解难度。

三、核心定理：Pitman定理（最优同变估计的闭式解）

定理内容

设 $\hat{\mu}(X),\hat{\sigma}(X)$ 是 $\mu,\sigma$ 的任意一组同变估计，在均方损失下，$\mu,\sigma$ 的唯一最优同变估计为：

\[\hat{\mu}^*(X) = \hat{\mu}(X) - \hat{\sigma}(X) \frac{\mathrm{E}_{(0,1)}\left[ \hat{\mu}(X)\hat{\sigma}(X) \mid V \right]}{\mathrm{E}_{(0,1)}\left[ \hat{\sigma}^2(X) \mid V \right]} \tag{4.4.9} \]

\[\hat{\sigma}^*(X) = \hat{\sigma}(X) \frac{\mathrm{E}_{(0,1)}\left[ \hat{\sigma}(X) \mid V \right]}{\mathrm{E}_{(0,1)}\left[ \hat{\sigma}^2(X) \mid V \right]} \tag{4.4.10} \]

其中 $\mathrm{E}_{(0,1)}$ 表示在标准分布 $P_{(0,1)}$（$\mu=0,\sigma=1$）下的期望，且解与基准同变估计的选取无关。

完整推导与证明

我们分三步完成证明：风险的标准化转化、优化求解最优函数、唯一性与无关性证明。

步骤1：风险的标准化转化（同变估计的风险为常数）

同变估计的风险是损失函数的期望，我们利用同变性质，将其转化为标准分布下的期望，消除参数 $\mu,\sigma$ 的影响。

对 $\mu$ 的同变估计风险

任一同变估计 $\hat{\mu}^*(X) = \hat{\mu}(X) + \hat{\sigma}(X)\psi(V)$，均方损失为 $L=\left( \frac{\hat{\mu}^* - \mu}{\sigma} \right)^2$，风险为：

\[R(\mu,\sigma;\hat{\mu}^*) = \mathrm{E}_{(\mu,\sigma)} \left[ \left( \frac{\hat{\mu}^*(X) - \mu}{\sigma} \right)^2 \right] \]

令 $Z=\frac{X-\mu\mathbf{1}}{\sigma} \sim P_{(0,1)}$，由同变条件：

$\hat{\mu}(X) = \hat{\mu}(\sigma Z + \mu\mathbf{1}) = \mu + \sigma \hat{\mu}(Z)$
$\hat{\sigma}(X) = \hat{\sigma}(\sigma Z + \mu\mathbf{1}) = \sigma \hat{\sigma}(Z)$
$V(X)=V(Z)$（$V$ 是不变量）

因此：

\[\frac{\hat{\mu}^*(X) - \mu}{\sigma} = \frac{\mu + \sigma\hat{\mu}(Z) + \sigma\hat{\sigma}(Z)\psi(V(Z)) - \mu}{\sigma} = \hat{\mu}(Z) + \hat{\sigma}(Z)\psi(V(Z)) \]

风险可改写为标准分布下的期望：

\[R(\mu,\sigma;\hat{\mu}^*) = \mathrm{E}_{(0,1)} \left[ \left( \hat{\mu}(Z) + \hat{\sigma}(Z)\psi(V(Z)) \right)^2 \right] \]

该期望与 $\mu,\sigma$ 完全无关，是常数。

对 $\sigma$ 的同变估计风险

任一同变估计 $\hat{\sigma}^*(X) = \hat{\sigma}(X)\varphi(V)$，均方损失为 $L=\left( \frac{\hat{\sigma}^*}{\sigma} - 1 \right)^2$，同理可得：

\[\frac{\hat{\sigma}^*(X)}{\sigma} = \frac{\sigma\hat{\sigma}(Z)\varphi(V(Z))}{\sigma} = \hat{\sigma}(Z)\varphi(V(Z)) \]

风险为：

\[R(\mu,\sigma;\hat{\sigma}^*) = \mathrm{E}_{(0,1)} \left[ \left( \hat{\sigma}(Z)\varphi(V(Z)) - 1 \right)^2 \right] \]

同样与 $\mu,\sigma$ 无关。

步骤2：最小化期望，求解最优函数 $\psi^(V),\varphi^(V)$

我们利用期望迭代法则 $\mathrm{E}[W] = \mathrm{E}\left[ \mathrm{E}[W \mid V] \right]$，将期望拆分为条件期望，转化为一元二次函数的最小值问题。

求解 $\mu$ 的最优 $\psi^*(V)$

将风险改写为：

\[Q(\psi) = \mathrm{E}_{(0,1)} \left[ \mathrm{E}\left( \left. \left( \hat{\mu} + \hat{\sigma}\psi(V) \right)^2 \right| V \right) \right] \]

给定 $V$ 时，$\psi(V)$ 是常数，展开条件期望：

\[\mathrm{E}\left( \left. \left( \hat{\mu} + \hat{\sigma}\psi \right)^2 \right| V \right) = \underbrace{\mathrm{E}(\hat{\sigma}^2 \mid V)}_{A>0} \cdot \psi^2 + \underbrace{2\mathrm{E}(\hat{\mu}\hat{\sigma} \mid V)}_{B} \cdot \psi + \underbrace{\mathrm{E}(\hat{\mu}^2 \mid V)}_{C} \]

这是关于 $\psi$ 的一元二次函数，$A>0$，最小值在 $\psi = -\frac{B}{2A}$ 处取得，因此最优解为：

\[\psi^*(V) = -\frac{\mathrm{E}_{(0,1)}\left( \hat{\mu}\hat{\sigma} \mid V \right)}{\mathrm{E}_{(0,1)}\left( \hat{\sigma}^2 \mid V \right)} \]

代入同变估计表达式，得到 $\mu$ 的最优同变估计，即式(4.4.9)。

求解 $\sigma$ 的最优 $\varphi^*(V)$

同理，将风险改写为：

\[Q(\varphi) = \mathrm{E}_{(0,1)} \left[ \mathrm{E}\left( \left. \left( \hat{\sigma}\varphi(V) - 1 \right)^2 \right| V \right) \right] \]

展开条件期望：

\[\mathrm{E}\left( \left. \left( \hat{\sigma}\varphi - 1 \right)^2 \right| V \right) = \underbrace{\mathrm{E}(\hat{\sigma}^2 \mid V)}_{A>0} \cdot \varphi^2 - \underbrace{2\mathrm{E}(\hat{\sigma} \mid V)}_{B} \cdot \varphi + 1 \]

一元二次函数最小值在 $\varphi = \frac{B}{2A}$ 处取得，因此最优解为：

\[\varphi^*(V) = \frac{\mathrm{E}_{(0,1)}\left( \hat{\sigma} \mid V \right)}{\mathrm{E}_{(0,1)}\left( \hat{\sigma}^2 \mid V \right)} \]

代入同变估计表达式，得到 $\sigma$ 的最优同变估计，即式(4.4.10)。

步骤3：唯一性与基准无关性证明

唯一性：一元二次函数的最小值点唯一，因此 $\psi^*(V),\varphi^*(V)$ 唯一，最优同变估计唯一。
基准无关性：若选取另一组基准同变估计 $\hat{\mu}_1 = \hat{\mu} + \hat{\sigma}\psi_0(V)$，$\hat{\sigma}_1 = \hat{\sigma}\varphi_0(V)$，代入最优公式后，$\psi_0(V),\varphi_0(V)$ 会完全抵消，最终结果与原基准完全一致（详细推导见附录）。

四、三大实用推论

Pitman定理给出了通用解，三个推论则针对不同场景大幅简化计算。

推论1 最简基准同变估计的闭式解

取最简单的基准同变估计 $\hat{\mu}(X)=X_1$，$\hat{\sigma}(X)=|X_2-X_1|$，代入Pitman定理得：

\[\hat{\mu}^*(X) = X_1 - |X_2 - X_1| \frac{\mathrm{E}_{(0,1)}\left( X_1 |X_2 - X_1| \mid V \right)}{\mathrm{E}_{(0,1)}\left( (X_2 - X_1)^2 \mid V \right)} \]

\[\hat{\sigma}^*(X) = |X_2 - X_1| \frac{\mathrm{E}_{(0,1)}\left( |X_2 - X_1| \mid V \right)}{\mathrm{E}_{(0,1)}\left( (X_2 - X_1)^2 \mid V \right)} \]

意义：无需构造复杂的基准估计，直接用样本分量即可求解最优同变估计。

推论2 $\sigma^r$ 的最优同变估计

若 $\delta(X)$ 是 $\sigma^r$ 的同变估计（满足 $\delta(m\mathbf{1}+kx)=k^r\delta(x)$），则 $\sigma^r$ 的最优同变估计为：

\[\delta^*(X) = \delta(X) \frac{\mathrm{E}_{(0,1)}\left( \delta(X) \mid V \right)}{\mathrm{E}_{(0,1)}\left( \delta^2(X) \mid V \right)} \]

意义：将最优同变估计推广到 $\sigma$ 的任意幂次（如方差 $\sigma^2$、标准差 $\sigma$），推导逻辑与 $\sigma$ 完全一致。

推论3 完备充分统计量下的简化公式

若 $T=T(X)$ 是分布族的完备充分统计量，且基准同变估计可表示为 $\hat{\mu}(X)=a(T)$，$\hat{\sigma}(X)=b(T)$，则Pitman定理中的条件期望可替换为无条件期望。

证明核心

由Basu定理：完备充分统计量与辅助统计量独立。我们已证明 $V$ 是辅助统计量，因此 $T$ 与 $V$ 独立，条件期望等于无条件期望：

\[\mathrm{E}_{(0,1)}[\hat{\mu}\hat{\sigma} \mid V] = \mathrm{E}_{(0,1)}[a(T)b(T)], \quad \mathrm{E}_{(0,1)}[\hat{\sigma}^2 \mid V] = \mathrm{E}_{(0,1)}[b^2(T)] \]

意义：对于指数族分布（正态、伽马、指数分布等），可直接通过完备充分统计量简化计算，无需求解复杂的条件期望，是实际应用中最常用的结论。

五、典型应用案例

案例1 正态分布 $N(\mu,\sigma^2)$ 的最优同变估计

设 $X_1,\dots,X_n$ iid，$X_1 \sim N(\mu,\sigma^2)$，求 $(\mu,\sigma^2)$ 的最优同变估计。

求解步骤

完备充分统计量：$T=(\bar{X}, S^2)$，其中 $\bar{X}=\frac{1}{n}\sum X_i$，$S^2=\sum_{i=1}^n (X_i-\bar{X})^2$
基准同变估计：
- $\hat{\mu}(X)=\bar{X}$，满足同变条件 $\bar{X}(m\mathbf{1}+kx)=m+k\bar{X}$
- $\hat{\sigma^2}(X)=S^2$，满足同变条件 $S^2(m\mathbf{1}+kx)=k^2S^2$
标准分布下的期望（$\mu=0,\sigma=1$）：
- $\bar{X} \sim N(0,1/n)$，$\mathrm{E}[\bar{X}]=0$，且 $\bar{X}$ 与 $S^2$ 独立
- $S^2 \sim \chi^2(n-1)$，$\mathrm{E}[S^2]=n-1$，$\mathrm{E}[(S^2)^2]=(n-1)(n+1)$
代入推论3求解：
- $\mu$ 的最优估计：$\hat{\mu}^*(X) = \bar{X} - S \cdot \frac{\mathrm{E}[\bar{X}S]}{\mathrm{E}[S^2]} = \bar{X}$（因 $\mathrm{E}[\bar{X}]=0$）
- $\sigma^2$ 的最优估计：$\widehat{\sigma^2}^*(X) = S^2 \cdot \frac{\mathrm{E}[S^2]}{\mathrm{E}[(S^2)^2]} = \frac{1}{n+1}S^2$

结果对比

估计类型	$\mu$ 的估计	$\sigma^2$ 的估计
最优同变估计（MREE）	$\bar{X}$	$\frac{S^2}{n+1}$
最大似然估计（MLE）	$\bar{X}$	$\frac{S^2}{n}$
无偏估计（UMVUE）	$\bar{X}$	$\frac{S^2}{n-1}$

结论：在均方损失下，$\frac{S^2}{n+1}$ 的风险小于MLE和无偏估计，是最优的。

案例2 平移指数分布的最优同变估计

设 $X_1,\dots,X_n$ iid，$X_1 \sim \mu + \text{Exp}(1/\sigma)$（平移指数分布），求 $(\mu,\sigma)$ 的最优同变估计。

求解步骤

完备充分统计量：$T=(X_{(1)}, S)$，其中 $X_{(1)}=\min X_i$，$S=\sum_{i=1}^n (X_i - X_{(1)})$
基准同变估计：$\hat{\mu}(X)=X_{(1)}$，$\hat{\sigma}(X)=S$，均满足同变条件
标准分布下的期望（$\mu=0,\sigma=1$）：
- $X_{(1)} \sim \text{Exp}(n)$，$\mathrm{E}[X_{(1)}]=1/n$
- $S \sim \Gamma(n-1,1)$，$\mathrm{E}[S]=n-1$，$\mathrm{E}[S^2]=n(n-1)$
- $X_{(1)}$ 与 $S$ 独立
代入推论3求解：
- $\mu$ 的最优估计：$\hat{\mu}^*(X) = X_{(1)} - S \cdot \frac{\mathrm{E}[X_{(1)}S]}{\mathrm{E}[S^2]} = X_{(1)} - \frac{1}{n^2}S$
- $\sigma$ 的最优估计：$\hat{\sigma}^*(X) = S \cdot \frac{\mathrm{E}[S]}{\mathrm{E}[S^2]} = \frac{1}{n}S$

结果对比

估计类型	$\mu$ 的估计	$\sigma$ 的估计
最优同变估计（MREE）	$X_{(1)} - \frac{S}{n^2}$	$\frac{S}{n}$
最大似然估计（MLE）	$X_{(1)}$	$\frac{S}{n}$
无偏估计（UMVUE）	$X_{(1)} - \frac{S}{n(n-1)}$	$\frac{S}{n-1}$

结论：在均方损失下，MREE的风险显著优于MLE和UMVUE。

六、全知识点归纳总结表

模块	核心内容	关键结论	核心意义
基础概念	位置尺度分布族、线性变换群、同变条件、不变量	同变估计随样本同步变换，不变量不随样本变换改变	定义研究对象的基本规则，明确同变估计的约束条件
引理4.4.1	同变估计与不变量的关系	两个同变估计的差/比是不变量，用不变量可构造新的同变估计	建立同变估计与不变量的联系，为刻画同变估计结构铺垫
引理4.4.2	最大不变量与不变量的充要条件	所有不变量都是最大不变量 $V$ 的函数，$V$ 的分布与参数无关	统一不变量的表达形式，消除参数对不变量分布的影响
引理4.4.3	同变估计的通用表达式	任一同变估计都可表示为基准同变估计+不变量的调整	将无穷维的估计问题转化为有限维的函数优化问题
Pitman定理	最优同变估计的闭式解	均方损失下，唯一最优同变估计由标准分布下的条件期望给出	给出最优同变估计的通用求解公式，是整个理论的核心
推论1	最简基准估计的解	用 $X_1$ 和 $	X_2-X_1
推论2	$\sigma^r$ 的最优估计	推广到 $\sigma$ 的任意幂次，公式形式与 $\sigma$ 一致	拓展最优同变估计的适用范围
推论3	完备充分统计量下的简化	条件期望可替换为无条件期望，大幅简化计算	解决实际应用中的计算难题，是工程中最常用的结论
应用案例	正态分布、平移指数分布的MREE	MREE在均方损失下的风险小于MLE和UMVUE	验证理论的实用性，展示最优同变估计的优势

附录：基准无关性的详细推导

设新基准同变估计为 $\hat{\mu}_1 = \hat{\mu} + \hat{\sigma}\psi_0(V)$，$\hat{\sigma}_1 = \hat{\sigma}\varphi_0(V)$，代入Pitman公式：

\[\begin{align*} \hat{\mu}_1 - \hat{\sigma}_1 \frac{\mathrm{E}[\hat{\mu}_1\hat{\sigma}_1 \mid V]}{\mathrm{E}[\hat{\sigma}_1^2 \mid V]} &= (\hat{\mu} + \hat{\sigma}\psi_0) - \hat{\sigma}\varphi_0 \cdot \frac{\mathrm{E}[(\hat{\mu} + \hat{\sigma}\psi_0)\hat{\sigma}\varphi_0 \mid V]}{\mathrm{E}[\hat{\sigma}^2\varphi_0^2 \mid V]} \\ &= \hat{\mu} + \hat{\sigma}\psi_0 - \hat{\sigma}\varphi_0 \cdot \frac{\varphi_0 \mathrm{E}[\hat{\mu}\hat{\sigma} \mid V] + \varphi_0\psi_0 \mathrm{E}[\hat{\sigma}^2 \mid V]}{\varphi_0^2 \mathrm{E}[\hat{\sigma}^2 \mid V]} \\ &= \hat{\mu} + \hat{\sigma}\psi_0 - \hat{\sigma} \cdot \frac{\mathrm{E}[\hat{\mu}\hat{\sigma} \mid V]}{\mathrm{E}[\hat{\sigma}^2 \mid V]} - \hat{\sigma}\psi_0 \\ &= \hat{\mu} - \hat{\sigma} \frac{\mathrm{E}[\hat{\mu}\hat{\sigma} \mid V]}{\mathrm{E}[\hat{\sigma}^2 \mid V]} \end{align*} \]

与原基准的结果完全一致，基准无关性得证。

Pitman积分公式深度讲解与完整推导

作为深耕数理统计领域的资深研究员，我将从公式本质、完整证明、核心解读、应用验证四个维度，系统拆解Pitman积分公式，让你不仅掌握公式形式，更理解其统计思想与应用逻辑。

一、定理核心内容与前置背景

1. 前置背景回顾

我们已经知道，位置尺度参数分布族的联合密度为：

\[p(x;\mu,\sigma) = \frac{1}{\sigma^n} f\left( \frac{x_1-\mu}{\sigma}, \frac{x_2-\mu}{\sigma}, \dots, \frac{x_n-\mu}{\sigma} \right) = \frac{1}{\sigma^n} f\left( \frac{x-\mu\mathbf{1}}{\sigma} \right) \]

其中 $\mu\in\mathbb{R}$ 为位置参数，$\sigma>0$ 为尺度参数，$f(\cdot)$ 是 $\mu=0,\sigma=1$ 时的标准分布密度。

此前我们通过Pitman定理得到了最优同变估计的条件期望形式，但该形式需要先选取基准同变估计、计算复杂的条件期望，Pitman积分公式则彻底解决了这个问题——直接通过样本密度的二重积分，一步算出最优同变估计，无需任何前置构造。

2. 定理4.4.2（Pitman积分公式）

设样本 $X=(X_1,\dots,X_n)^\mathrm{T}$ 服从上述位置尺度参数分布族，在均方损失下，$\mu$ 和 $\sigma$ 的唯一最优同变估计（MREE）为：

\[\hat{\mu}^*(X) = \frac{\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \mu \cdot \sigma^{-3} \cdot p(X;\mu,\sigma) \mathrm{d}\mu}{\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-3} \cdot p(X;\mu,\sigma) \mathrm{d}\mu} \tag{1} \]

\[\hat{\sigma}^*(X) = \frac{\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-2} \cdot p(X;\mu,\sigma) \mathrm{d}\mu}{\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-3} \cdot p(X;\mu,\sigma) \mathrm{d}\mu} \tag{2} \]

二、完整严谨的证明过程

证明的核心思路：从之前的最优同变估计条件期望形式出发，通过样本变换、条件密度展开、变量替换，最终将条件期望转化为关于 $\mu,\sigma$ 的二重积分。

步骤1：从基准同变估计的最优形式出发

根据之前的推论1，取最简单的基准同变估计 $\hat{\mu}(X)=X_1$，$\hat{\sigma}(X)=|X_2-X_1|$，则最优同变估计为：

\[\hat{\mu}^*(X) = X_1 - |X_2 - X_1| \cdot \frac{\mathrm{E}_{(0,1)}\left[ X_1 |X_2 - X_1| \mid V \right]}{\mathrm{E}_{(0,1)}\left[ (X_2 - X_1)^2 \mid V \right]} \tag{3} \]

\[\hat{\sigma}^*(X) = |X_2 - X_1| \cdot \frac{\mathrm{E}_{(0,1)}\left[ |X_2 - X_1| \mid V \right]}{\mathrm{E}_{(0,1)}\left[ (X_2 - X_1)^2 \mid V \right]} \tag{4} \]

其中最大不变量 $V=(V_2,V_3,\dots,V_n)$，$V_2=\frac{X_2-X_1}{|X_2-X_1|}=\pm1$，$V_i=\frac{X_i-X_1}{X_2-X_1} \ (i\geq3)$，$\mathrm{E}_{(0,1)}$ 表示标准分布（$\mu=0,\sigma=1$）下的期望。

步骤2：样本变换与联合密度分解

为了计算条件期望，我们对样本做一一变换，将样本分解为「自由变量」和「不变量」：

\[U_1 = X_1, \quad U_2 = X_2 - X_1, \quad V_i = \frac{X_i - X_1}{X_2 - X_1} \ (i=3,\dots,n) \]

其逆变换为：

\[X_1=U_1, \ X_2=U_1+U_2, \ X_i=U_1+U_2 V_i \ (i\geq3) \]

计算该变换的Jacobi行列式绝对值：通过分块矩阵计算可得 $|J|=|U_2|^{n-2}$，因此标准分布下 $(U_1,U_2,V)$ 的联合密度为：

\[p_{U_1,U_2,V}(u_1,u_2,v_3,\dots,v_n) = f(u_1, u_1+u_2, u_1+u_2 v_3, \dots, u_1+u_2 v_n) \cdot |u_2|^{n-2} \]

其中 $f(\cdot)$ 是标准分布的联合密度。

步骤3：条件期望的积分展开

根据条件密度公式，给定 $V$ 时，$(U_1,U_2)$ 的条件密度为联合密度除以 $V$ 的边缘密度，因此条件期望可展开为：

\[\mathrm{E}_{(0,1)}\left[ U_1 |U_2| \mid V \right] = \frac{\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} u_1 |u_2| \cdot f(\cdot) |u_2|^{n-2} \mathrm{d}u_1 \mathrm{d}u_2}{\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(\cdot) |u_2|^{n-2} \mathrm{d}u_1 \mathrm{d}u_2} \]

\[\mathrm{E}_{(0,1)}\left[ U_2^2 \mid V \right] = \frac{\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} u_2^2 \cdot f(\cdot) |u_2|^{n-2} \mathrm{d}u_1 \mathrm{d}u_2}{\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(\cdot) |u_2|^{n-2} \mathrm{d}u_1 \mathrm{d}u_2} \]

两者相除，分母的边缘密度抵消，化简得：

\[\frac{\mathrm{E}\left[ U_1 |U_2| \mid V \right]}{\mathrm{E}\left[ U_2^2 \mid V \right]} = \frac{\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} u_1 |u_2|^{n-1} \cdot f\left( \frac{x-\mu\mathbf{1}}{\sigma} \right) \mathrm{d}u_1 \mathrm{d}u_2}{\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} |u_2|^n \cdot f\left( \frac{x-\mu\mathbf{1}}{\sigma} \right) \mathrm{d}u_1 \mathrm{d}u_2} \tag{5} \]

步骤4：变量替换，转化为关于 $\mu,\sigma$ 的积分

我们做核心变量替换，将标准化变量 $(u_1,u_2)$ 转化为参数 $(\mu,\sigma)$：

\[u_1 = \frac{X_1 - \mu}{\sigma}, \quad u_2 = \frac{X_2 - X_1}{\sigma} \]

其逆变换为 $\mu = X_1 - \sigma u_1$，$\sigma = \frac{|X_2 - X_1|}{|u_2|}$，计算Jacobi行列式绝对值：

\[\left| \frac{\partial(u_1,u_2)}{\partial(\mu,\sigma)} \right| = \frac{|X_2 - X_1|}{\sigma^3} \implies |\mathrm{d}u_1 \mathrm{d}u_2| = \frac{|X_2 - X_1|}{\sigma^3} \mathrm{d}\mu \mathrm{d}\sigma \]

同时，根据位置尺度密度的定义，有：

\[f\left( \frac{X_1-\mu}{\sigma}, \frac{X_2-\mu}{\sigma}, \dots, \frac{X_n-\mu}{\sigma} \right) = \sigma^n \cdot p(X;\mu,\sigma) \]

将上述结果代入式(5)的分子和分母：

分子化简

\[\begin{align*} &\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} u_1 |u_2|^{n-1} f(\cdot) \mathrm{d}u_1 \mathrm{d}u_2 \\ =& \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \frac{X_1-\mu}{\sigma} \cdot \left| \frac{X_2-X_1}{\sigma} \right|^{n-1} \cdot \sigma^n p(X;\mu,\sigma) \cdot \frac{|X_2-X_1|}{\sigma^3} \mathrm{d}\mu \\ =& |X_2-X_1|^n \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} (X_1-\mu) \cdot \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \end{align*} \]

分母化简

\[\begin{align*} &\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} |u_2|^n f(\cdot) \mathrm{d}u_1 \mathrm{d}u_2 \\ =& \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \left| \frac{X_2-X_1}{\sigma} \right|^n \cdot \sigma^n p(X;\mu,\sigma) \cdot \frac{|X_2-X_1|}{\sigma^3} \mathrm{d}\mu \\ =& |X_2-X_1|^{n+1} \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \end{align*} \]

步骤5：代入最优估计表达式，完成证明

将分子分母代入式(3)，$|X_2-X_1|$ 项完全抵消：

\[\begin{align*} \hat{\mu}^*(X) &= X_1 - |X_2-X_1| \cdot \frac{|X_2-X_1|^n \int_{0}^{+\infty}\int_{-\infty}^{+\infty} (X_1-\mu)\sigma^{-3} p \mathrm{d}\mu \mathrm{d}\sigma}{|X_2-X_1|^{n+1} \int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-3} p \mathrm{d}\mu \mathrm{d}\sigma} \\ &= X_1 - \frac{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} (X_1-\mu)\sigma^{-3} p \mathrm{d}\mu \mathrm{d}\sigma}{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-3} p \mathrm{d}\mu \mathrm{d}\sigma} \\ &= \frac{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \mu \cdot \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma} \end{align*} \]

$\mu$ 的最优估计公式得证。

同理，将 $\mathrm{E}[|U_2| \mid V]$ 做相同的变量替换和化简，代入式(4)，即可得到 $\sigma$ 的最优估计公式，证明完成。

三、核心解读与关键说明

1. 公式的本质：贝叶斯后验期望

Pitman积分公式本质上是无信息先验下的贝叶斯后验期望：

位置尺度参数的Jeffreys无信息先验为 $\pi(\mu,\sigma) = \sigma^{-2}$
似然函数为 $L(\mu,\sigma|X) = p(X;\mu,\sigma)$
后验密度为 $\pi(\mu,\sigma|X) \propto \sigma^{-2} p(X;\mu,\sigma)$

此时：

$\mu$ 的后验期望为 $\mathrm{E}[\mu|X] = \frac{\int\int \mu \cdot \sigma^{-2} p \mathrm{d}\mu \mathrm{d}\sigma}{\int\int \sigma^{-2} p \mathrm{d}\mu \mathrm{d}\sigma}$，与公式(1)仅差一个 $\sigma^{-1}$ 的常数权重，本质完全一致；
这也解释了为什么Pitman积分公式得到的估计是最优的——它同时满足同变性和最小均方风险，是频率派与贝叶斯派结果的完美统一。

2. 核心优势与适用范围

优势	具体说明
通用性极强	对所有位置尺度分布族均成立，无论是否存在充分统计量，无论分布是连续型还是离散型（离散型将积分替换为求和即可）
计算门槛低	无需构造基准同变估计、无需计算复杂的条件期望，仅需代入样本密度做二重积分，可直接编程实现
结果唯一最优	得到的估计是均方损失下唯一的最小风险同变估计，在同变估计类中风险全局最小

3. 使用前提

公式的使用前提是积分收敛，即分母的积分：

\[\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu < +\infty \]

对于正态分布、均匀分布、平移指数分布、拉普拉斯分布等绝大多数常见位置尺度分布，该积分均收敛。

四、应用验证：正态分布的最优同变估计

我们以正态分布为例，用Pitman积分公式计算最优同变估计，验证其与之前结论的一致性。

设 $X_1,\dots,X_n$ 独立同分布，$X_1 \sim N(\mu,\sigma^2)$，样本联合密度为：

\[p(X;\mu,\sigma) = (2\pi\sigma^2)^{-n/2} \exp\left( -\frac{1}{2\sigma^2} \sum_{i=1}^n (X_i-\mu)^2 \right) \]

1. 计算 $\mu$ 的最优同变估计

首先计算分母 $D = \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu$。

利用平方和分解 $\sum_{i=1}^n (X_i-\mu)^2 = n(\mu-\bar{X})^2 + S^2$（其中 $\bar{X}$ 为样本均值，$S^2=\sum (X_i-\bar{X})^2$），内层关于 $\mu$ 的积分是正态分布的全积分：

\[\int_{-\infty}^{+\infty} \exp\left( -\frac{n}{2\sigma^2}(\mu-\bar{X})^2 \right) \mathrm{d}\mu = \sigma \sqrt{\frac{2\pi}{n}} \]

代入分母得：

\[D = (2\pi)^{-n/2} \sqrt{\frac{2\pi}{n}} \int_{0}^{+\infty} \sigma^{-(n+2)} \exp\left( -\frac{S^2}{2\sigma^2} \right) \mathrm{d}\sigma \]

再计算分子 $N_\mu = \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \mu \sigma^{-3} p \mathrm{d}\mu$，内层积分是正态分布的期望乘以全积分：

\[\int_{-\infty}^{+\infty} \mu \exp\left( -\frac{n}{2\sigma^2}(\mu-\bar{X})^2 \right) \mathrm{d}\mu = \bar{X} \cdot \sigma \sqrt{\frac{2\pi}{n}} \]

因此 $N_\mu = \bar{X} \cdot D$，最终：

\[\hat{\mu}^*(X) = \frac{N_\mu}{D} = \bar{X} \]

与之前的结论完全一致。

2. 计算 $\sigma^2$ 的最优同变估计

根据推论2，$\sigma^r$ 的最优同变估计可推广为：

\[\widehat{\sigma^r}^*(X) = \frac{\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{r-2} p(X;\mu,\sigma) \mathrm{d}\mu}{\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-2} p(X;\mu,\sigma) \mathrm{d}\mu} \]

取 $r=2$，代入计算可得：

\[\widehat{\sigma^2}^*(X) = \frac{S^2}{n+1} \]

与之前的结论完全一致，验证了Pitman积分公式的正确性。

五、核心知识点归纳总结表

项目	核心内容
公式名称	Pitman积分公式
适用场景	位置尺度参数分布族下，均方损失函数的最优同变估计求解
核心公式	$\hat{\mu}^(X) = \frac{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \mu \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}$ $\hat{\sigma}^(X) = \frac{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-2} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}$
本质	位置尺度参数Jeffreys无信息先验下的贝叶斯后验期望
核心优势	通用性强、无需构造基准估计、计算流程标准化、结果全局最优
推广形式	$\sigma^r$ 的最优同变估计：$\widehat{\sigma^r}^*(X) = \frac{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{r-2} p \mathrm{d}\mu \mathrm{d}\sigma}{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-2} p \mathrm{d}\mu \mathrm{d}\sigma}$
使用前提	积分收敛，即分母的二重积分有限

posted on 2026-02-26 09:54 Indian_Mysore 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

模块	核心内容	数学表达	关键性质/意义
位置尺度参数分布族	定义	\(p(x;\mu,\sigma) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right)\)	\(\mu\) 控制平移，\(\sigma\) 控制缩放，\(f(\cdot)\) 为标准分布密度
	标准化性质	\(X \sim P_{(\mu,\sigma)} \implies \frac{X - \mu \mathbf{1}}{\sigma} \sim P_{(0,1)}\)	可将任意位置尺度分布转化为与参数无关的标准分布，是同变估计的基础
线性变换群	样本空间变换群 \(G\)	\(g_{[m,k]} x = m\mathbf{1} + kx, \ m\in\mathbb{R},k>0\)	由平移+尺度变换构成，满足群的4条性质，是不变性分析的核心对象
	参数空间导出群 \(\overline{G}\)	\(\overline{g}_{[m,k]} (\mu,\sigma) = (m + k\mu, k\sigma)\)	样本变换诱导的参数变换，与 \(G\) 同态，证明了位置尺度族是不变分布族
	不变分布族	\(X \sim P_{(\mu,\sigma)} \implies g_{[m,k]}X \sim P_{(\overline{g}_{[m,k]}(\mu,\sigma))}\)	样本经线性变换后，分布仍属于同一位置尺度族，仅参数同步变换
同变估计	\(\mu\) 的同变条件	\(\hat{\mu}(m\mathbf{1} + kx) = m + k\hat{\mu}(x)\)	样本平移/缩放，估计量同步平移/缩放
	\(\sigma\) 的同变条件	\(\hat{\sigma}(m\mathbf{1} + kx) = k\hat{\sigma}(x)\)	样本平移不改变尺度估计，缩放时估计量同步缩放
	\(\sigma^r\) 的同变条件	\(\widehat{\sigma^r}(m\mathbf{1} + kx) = k^r \widehat{\sigma^r}(x)\)	样本平移不改变 \(\sigma^r\) 估计，缩放时估计量按 \(k^r\) 同步变换
同变损失函数	\(\mu\) 的同变损失	\(L(\mu,\sigma;d_\mu) = \rho\left( \frac{d_\mu - \mu}{\sigma} \right)\)	仅与标准化估计误差有关，常用均方损失为 \(\frac{(d_\mu - \mu)^2}{\sigma^2}\)
	\(\sigma\) 的同变损失	\(L(\mu,\sigma;d_\sigma) = \rho\left( \frac{d_\sigma}{\sigma} \right)\)	仅与估计值和真实值的比值有关，常用均方损失为 \(\frac{(d_\sigma - \sigma)^2}{\sigma^2}\)
	\(\sigma^r\) 的同变损失	\(L(\mu,\sigma;d) = \rho\left( \frac{d}{\sigma^r} \right)\)	仅与估计值和真实值的比值有关，常用均方损失为 \(\frac{(d - \sigma^r)^2}{\sigma^{2r}}\)

估计类型	\(\mu\) 的估计	\(\sigma^2\) 的估计
最优同变估计（MREE）	\(\bar{X}\)	\(\frac{S^2}{n+1}\)
最大似然估计（MLE）	\(\bar{X}\)	\(\frac{S^2}{n}\)
无偏估计（UMVUE）	\(\bar{X}\)	\(\frac{S^2}{n-1}\)

估计类型	\(\mu\) 的估计	\(\sigma\) 的估计
最优同变估计（MREE）	\(X_{(1)} - \frac{S}{n^2}\)	\(\frac{S}{n}\)
最大似然估计（MLE）	\(X_{(1)}\)	\(\frac{S}{n}\)
无偏估计（UMVUE）	\(X_{(1)} - \frac{S}{n(n-1)}\)	\(\frac{S}{n-1}\)

核心要素	具体定义与说明
分布族	位置尺度参数分布族：\(X=(X_1,\dots,X_n)^\mathrm{T} \sim p(x;\mu,\sigma) = \frac{1}{\sigma^n}f\left( \frac{x-\mu\mathbf{1}}{\sigma} \right)\)，其中 \(\mu\in\mathbb{R}\) 为位置参数，\(\sigma>0\) 为尺度参数，\(\mathbf{1}\) 为n维全1向量
变换群	线性变换群 \(G=\{g_{[m,k]}: g_{[m,k]}x = m\mathbf{1}+kx, m\in\mathbb{R},k>0\}\)，包含平移变换（\(m\)）和尺度变换（\(k\)）
损失函数	均方同变损失： \(\mu\) 的损失：\(L(\mu,\sigma;d_\mu)=\frac{(d_\mu-\mu)^2}{\sigma^2}\) \(\sigma\) 的损失：\(L(\mu,\sigma;d_\sigma)=\frac{(d_\sigma-\sigma)^2}{\sigma^2}\)
核心目标	在所有满足同变条件的估计量中，找到风险最小的同变估计（MREE，最优同变估计）

昆仑山:眼中无形心中有穴之穴人合一

4.4.1位置尺度参数分布族与线性变换群

位置尺度参数分布族与线性变换群 详细讲解与推导

一、核心基础：位置尺度参数分布族的定义与本质

1. 定义

2. 核心性质：标准化变换的分布不变性

详细证明：

二、线性变换群的定义与性质

1. 样本空间的线性变换群 \(G\)

群性质的验证：

2. 参数空间的导出群 \(\overline{G}\)

核心定理：位置尺度分布族是线性变换群下的不变分布族

详细证明：

导出群的定义

三、同变估计的定义与约束条件

1. 场景1：估计参数 \((\mu,\sigma)\)

同变条件的标准化形式

2. 场景2：估计参数 \(\sigma^r\)（\(r\) 为常数，如 \(r=2\) 估计方差）

四、同变损失函数的形式与推导

1. 位置参数 \(\mu\) 的同变损失函数

2. 尺度参数 \(\sigma\) 的同变损失函数

3. 参数 \(\sigma^r\) 的同变损失函数

五、核心知识点归纳总结表

位置尺度参数的最优同变估计 深度讲解与完整推导

一、研究框架与核心前提

前置核心结论回顾

二、同变估计的结构刻画：三大核心引理

引理4.4.1 同变估计与不变量的关系

引理内容

完整证明

正向证明：\(u(x),v(x)\) 是不变量

反向证明：构造的估计量是同变估计

核心意义

引理4.4.2 不变量的充要条件与最大不变量

核心概念补充：最大不变量

引理内容

完整证明

必要性：不变量必为最大不变量的函数

充分性：最大不变量的函数是不变量

最大不变量的验证

分布与参数无关的证明

核心意义

引理4.4.3 同变估计的通用表达式

引理内容

完整证明

核心意义

三、核心定理：Pitman定理（最优同变估计的闭式解）

定理内容

完整推导与证明

步骤1：风险的标准化转化（同变估计的风险为常数）

对 \(\mu\) 的同变估计风险

对 \(\sigma\) 的同变估计风险

步骤2：最小化期望，求解最优函数 \(\psi^*(V),\varphi^*(V)\)

求解 \(\mu\) 的最优 \(\psi^*(V)\)

求解 \(\sigma\) 的最优 \(\varphi^*(V)\)

步骤3：唯一性与基准无关性证明

四、三大实用推论

推论1 最简基准同变估计的闭式解

推论2 \(\sigma^r\) 的最优同变估计

推论3 完备充分统计量下的简化公式

证明核心

五、典型应用案例

案例1 正态分布 \(N(\mu,\sigma^2)\) 的最优同变估计

求解步骤

结果对比

案例2 平移指数分布的最优同变估计

求解步骤

结果对比

六、全知识点归纳总结表

附录：基准无关性的详细推导

Pitman积分公式 深度讲解与完整推导

一、定理核心内容与前置背景

1. 前置背景回顾

2. 定理4.4.2（Pitman积分公式）

二、完整严谨的证明过程

步骤1：从基准同变估计的最优形式出发

步骤2：样本变换与联合密度分解

步骤3：条件期望的积分展开

步骤4：变量替换，转化为关于 \(\mu,\sigma\) 的积分

分子化简

位置尺度参数分布族与线性变换群详细讲解与推导

位置尺度参数的最优同变估计深度讲解与完整推导

步骤2：最小化期望，求解最优函数 \(\psi^(V),\varphi^(V)\)

Pitman积分公式深度讲解与完整推导