昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

4.4.1位置尺度参数分布族与线性变换群

位置尺度参数分布族与线性变换群 详细讲解与推导

一、核心基础:位置尺度参数分布族的定义与本质

1. 定义

设n维随机向量 \(X=(X_1,X_2,\dots,X_n)^\mathrm{T}\),若其概率密度函数可表示为如下形式,则称其服从位置尺度参数分布族

\[p(x;\mu,\sigma) = \frac{1}{\sigma^n} f\left( \frac{x_1 - \mu}{\sigma}, \frac{x_2 - \mu}{\sigma}, \dots, \frac{x_n - \mu}{\sigma} \right) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right) \]

其中:

  • \(\mu \in (-\infty,+\infty)\)位置参数:作用是对分布进行整体平移,不改变分布的形状与离散程度;
  • \(\sigma \in (0,+\infty)\)尺度参数:作用是对分布进行整体缩放,不改变分布的位置与形状;
  • \(\mathbf{1}=(1,1,\dots,1)^\mathrm{T}\) 为n维全1列向量,保证每个样本分量都完成平移操作;
  • \(f(\cdot)\)标准分布的密度函数:当 \(\mu=0,\sigma=1\) 时,\(X \sim f(x_1,\dots,x_n)\),称为标准位置尺度分布(如标准正态分布 \(N(0,1)\)、标准均匀分布 \(R(0,1)\) 均为典型的标准分布)。

2. 核心性质:标准化变换的分布不变性

定理:若 \(X \sim P_{(\mu,\sigma)}\)(位置尺度分布族),则 \(Y=\frac{X - \mu \mathbf{1}}{\sigma} \sim P_{(0,1)}\)(标准分布);反之,若 \(Y \sim P_{(0,1)}\),则 \(X=\sigma Y + \mu \mathbf{1} \sim P_{(\mu,\sigma)}\)

详细证明:

已知 \(X\) 的密度为 \(p_X(x) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right)\),做线性变换 \(Y = \frac{X - \mu \mathbf{1}}{\sigma}\),其逆变换为 \(X = \sigma Y + \mu \mathbf{1}\)

  1. 计算变换的Jacobi行列式:
    对每个分量,\(x_i = \sigma y_i + \mu\),因此Jacobi矩阵为n阶对角矩阵,对角元均为 \(\sigma\),行列式的绝对值为:

    \[|J| = \left| \frac{\partial(x_1,\dots,x_n)}{\partial(y_1,\dots,y_n)} \right| = \sigma^n \]

  2. 由随机变量密度变换公式 \(p_Y(y) = p_X(\sigma y + \mu \mathbf{1}) \cdot |J|\),代入 \(p_X\) 的表达式:

    \[p_X(\sigma y + \mu \mathbf{1}) = \frac{1}{\sigma^n} f\left( \frac{(\sigma y + \mu \mathbf{1}) - \mu \mathbf{1}}{\sigma} \right) = \frac{1}{\sigma^n} f(y) \]

    因此:

    \[p_Y(y) = \frac{1}{\sigma^n} f(y) \cdot \sigma^n = f(y) \]

    \(Y\) 服从标准分布 \(P_{(0,1)}\),正向命题得证。

反向命题同理:对 \(Y \sim f(y)\),做变换 \(X=\sigma Y + \mu \mathbf{1}\),Jacobi行列式绝对值为 \(|J|=\frac{1}{\sigma^n}\),代入密度变换公式可得 \(p_X(x) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right)\),即 \(X \sim P_{(\mu,\sigma)}\)


二、线性变换群的定义与性质

变换群是满足封闭性、结合律、单位元存在、逆元存在的一组变换,位置尺度分布族对应的线性变换群,由平移变换(位置变换)和尺度变换(相似变换)组合而成,也叫仿射线性变换群。

1. 样本空间的线性变换群 \(G\)

设样本空间 \(\mathcal{X}\) 为n维欧氏空间,定义变换集合 \(G = \{ g_{[m,k]} \mid m \in \mathbb{R}, k>0 \}\),其中变换 \(g_{[m,k]}\) 对样本的作用为:

\[g_{[m,k]} x = m \mathbf{1} + k x \quad \text{或} \quad g_{[m,k]} x_i = m + k x_i, \ i=1,\dots,n \]

  • \(m\) 对应平移变换,实现样本的整体平移;
  • \(k>0\) 对应尺度变换,实现样本的整体缩放,保证尺度为正,与 \(\sigma>0\) 匹配。

群性质的验证:

  1. 封闭性:任取 \(g_{[m_1,k_1]}, g_{[m_2,k_2]} \in G\),变换的复合为:

    \[g_{[m_2,k_2]} \circ g_{[m_1,k_1]} (x) = g_{[m_2,k_2]}(m_1 \mathbf{1} + k_1 x) = (m_2 + k_2 m_1) \mathbf{1} + (k_2 k_1) x = g_{[m_2 + k_2 m_1, k_2 k_1]} x \]

    结果仍属于 \(G\),封闭性成立。

  2. 结合律:变换的复合天然满足结合律,即 \((g_1 \circ g_2) \circ g_3 = g_1 \circ (g_2 \circ g_3)\)

  3. 单位元存在:取 \(m=0,k=1\),则 \(g_{[0,1]} x = x\),为恒等变换,是群的单位元。

  4. 逆元存在:对任意 \(g_{[m,k]}\),取逆变换 \(g_{[-m/k, 1/k]}\),则:

    \[g_{[-m/k, 1/k]} \circ g_{[m,k]} (x) = -\frac{m}{k} \mathbf{1} + \frac{1}{k}(m \mathbf{1} + k x) = x \]

    逆元存在。

因此 \(G\) 是一个群,称为样本空间的线性变换群。

2. 参数空间的导出群 \(\overline{G}\)

样本空间的变换会诱导出参数空间的变换,称为导出变换,所有导出变换构成的群称为参数空间的导出群 \(\overline{G}\)

核心定理:位置尺度分布族是线性变换群下的不变分布族

定理:若 \(X \sim P_{(\mu,\sigma)}\),对任意 \(g_{[m,k]} \in G\),令 \(Y = g_{[m,k]} X = m \mathbf{1} + k X\),则 \(Y \sim P_{(\mu',\sigma')}\),其中 \(\mu' = m + k\mu\)\(\sigma' = k\sigma\)

详细证明:

已知 \(X\) 的密度为 \(p_X(x) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right)\),变换 \(Y = m \mathbf{1} + k X\) 的逆变换为 \(X = \frac{Y - m \mathbf{1}}{k}\)

  1. 计算Jacobi行列式:
    对每个分量 \(x_i = \frac{y_i - m}{k}\),Jacobi矩阵为对角矩阵,对角元均为 \(\frac{1}{k}\),行列式绝对值为:

    \[|J| = \left( \frac{1}{k} \right)^n = k^{-n} \]

  2. 代入密度变换公式 \(p_Y(y) = p_X\left( \frac{y - m \mathbf{1}}{k} \right) \cdot |J|\),化简密度的核心项:

    \[\frac{\frac{y_i - m}{k} - \mu}{\sigma} = \frac{y_i - m - k\mu}{k\sigma} = \frac{y_i - (m + k\mu)}{k\sigma} \]

    \(\mu' = m + k\mu\)\(\sigma' = k\sigma\),则上式可写为 \(\frac{y_i - \mu'}{\sigma'}\)

  3. 代入完整密度表达式:

    \[p_X\left( \frac{y - m \mathbf{1}}{k} \right) = \frac{1}{\sigma^n} f\left( \frac{y - \mu' \mathbf{1}}{\sigma'} \right) \]

    因此:

    \[p_Y(y) = \frac{1}{\sigma^n} f\left( \frac{y - \mu' \mathbf{1}}{\sigma'} \right) \cdot k^{-n} = \frac{1}{(k\sigma)^n} f\left( \frac{y - \mu' \mathbf{1}}{\sigma'} \right) = \frac{1}{(\sigma')^n} f\left( \frac{y - \mu' \mathbf{1}}{\sigma'} \right) \]

    \(Y \sim P_{(\mu',\sigma')}\),证明完成。

导出群的定义

上述参数的变换即为导出变换,记为 \(\overline{g}_{[m,k]}\),其对参数的作用为:

\[\overline{g}_{[m,k]} (\mu,\sigma) = (\mu',\sigma') = (m + k\mu, k\sigma) \]

所有导出变换构成的集合 \(\overline{G} = \{ \overline{g}_{[m,k]} \mid m \in \mathbb{R}, k>0 \}\) 同样满足群的4条性质,称为参数空间的导出群,与样本空间的变换群 \(G\) 同态。


三、同变估计的定义与约束条件

同变估计是不变性原理在参数估计中的核心应用:若样本经过变换 \(g\),则估计量也应经过对应的导出变换 \(g^*\),即满足同变条件

\[\delta(gx) = g^* \delta(x) \]

其中 \(\delta(x)\) 为估计量,\(g^*\) 为判决空间的导出变换。我们分两种核心场景讨论:

1. 场景1:估计参数 \((\mu,\sigma)\)

此时判决空间 \(\mathcal{D}\) 与参数空间 \(\Theta\) 完全一致,因此判决空间的导出群 \(G^* = \overline{G}\),即 \(g^*_{[m,k]} = \overline{g}_{[m,k]}\)

\(\hat{\mu}(x)\)\(\mu\) 的估计量,\(\hat{\sigma}(x)\)\(\sigma\) 的估计量,即 \(\delta(x) = (\hat{\mu}(x), \hat{\sigma}(x))\)。将同变条件展开:

  • 左边:\(\delta(g_{[m,k]}x) = \left( \hat{\mu}(m\mathbf{1} + kx), \hat{\sigma}(m\mathbf{1} + kx) \right)\)
  • 右边:\(g^*_{[m,k]} \delta(x) = \overline{g}_{[m,k]} (\hat{\mu}(x), \hat{\sigma}(x)) = \left( m + k\hat{\mu}(x), k\hat{\sigma}(x) \right)\)

左右分量对应相等,得到两个核心同变条件:

  1. 位置参数 \(\mu\) 的同变条件

    \[\hat{\mu}(m\mathbf{1} + kx) = m + k\hat{\mu}(x), \quad \forall m \in \mathbb{R}, k>0 \]

  2. 尺度参数 \(\sigma\) 的同变条件

    \[\hat{\sigma}(m\mathbf{1} + kx) = k\hat{\sigma}(x), \quad \forall m \in \mathbb{R}, k>0 \]

同变条件的标准化形式

取特殊值 \(k = \frac{1}{\sigma}\)\(m = -\frac{\mu}{\sigma}\),代入同变条件,可得到更具实用价值的标准化形式:

  • \(\mu\) 的估计:

    \[\hat{\mu}\left( \frac{x - \mu \mathbf{1}}{\sigma} \right) = \frac{\hat{\mu}(x) - \mu}{\sigma} \]

  • \(\sigma\) 的估计:

    \[\hat{\sigma}\left( \frac{x - \mu \mathbf{1}}{\sigma} \right) = \frac{\hat{\sigma}(x)}{\sigma} \]

关键意义:我们已证明 \(Z=\frac{X - \mu \mathbf{1}}{\sigma} \sim P_{(0,1)}\),与参数 \(\mu,\sigma\) 无关,因此同变估计的标准化形式是枢轴量,这是求解最小风险同变估计(MREE)的核心约束。

2. 场景2:估计参数 \(\sigma^r\)\(r\) 为常数,如 \(r=2\) 估计方差)

此时判决空间 \(\mathcal{D} = (0,+\infty)\),参数变换下 \(\sigma^r \to (\sigma')^r = (k\sigma)^r = k^r \sigma^r\),因此判决空间的导出变换为:

\[\tilde{g}^*_{[m,k]} d = k^r d \]

其中 \(d = \widehat{\sigma^r}(x)\)\(\sigma^r\) 的估计量。

代入同变条件 \(\delta(gx) = g^* \delta(x)\),得到 \(\sigma^r\) 的同变条件:

\[\widehat{\sigma^r}(m\mathbf{1} + kx) = k^r \widehat{\sigma^r}(x), \quad \forall m \in \mathbb{R}, k>0 \]


四、同变损失函数的形式与推导

同变损失函数是与同变估计匹配的损失函数,满足变换不变性:参数经过导出变换、判决经过对应导出变换后,损失函数的值保持不变,即:

\[L(\theta; d) = L(\overline{g}\theta; g^* d), \quad \forall g \in G \]

1. 位置参数 \(\mu\) 的同变损失函数

\(d_\mu\)\(\mu\) 的估计,损失函数满足不变性:

\[L(\mu,\sigma; d_\mu) = L(m + k\mu, k\sigma; m + k d_\mu), \quad \forall m \in \mathbb{R}, k>0 \]

取特殊值 \(k = \frac{1}{\sigma}\)\(m = -\frac{\mu}{\sigma}\),代入上式化简:

\[L(\mu,\sigma; d_\mu) = L\left( 0, 1; \frac{d_\mu - \mu}{\sigma} \right) = \rho\left( \frac{d_\mu - \mu}{\sigma} \right) \]

结论\(\mu\) 的同变损失函数,一定是标准化估计误差 \(\frac{d_\mu - \mu}{\sigma}\) 的函数,与 \(\mu,\sigma\) 本身无关,仅与相对误差有关。

最常用的均方损失取 \(\rho(t) = t^2\),即:

\[L(\mu,\sigma; d_\mu) = \left( \frac{d_\mu - \mu}{\sigma} \right)^2 = \frac{(d_\mu - \mu)^2}{\sigma^2} \]

2. 尺度参数 \(\sigma\) 的同变损失函数

\(d_\sigma\)\(\sigma\) 的估计,损失函数满足不变性:

\[L(\mu,\sigma; d_\sigma) = L(m + k\mu, k\sigma; k d_\sigma), \quad \forall m \in \mathbb{R}, k>0 \]

同样取 \(k = \frac{1}{\sigma}\)\(m = -\frac{\mu}{\sigma}\),代入化简得:

\[L(\mu,\sigma; d_\sigma) = L\left( 0, 1; \frac{d_\sigma}{\sigma} \right) = \rho\left( \frac{d_\sigma}{\sigma} \right) \]

结论\(\sigma\) 的同变损失函数,一定是估计量与真实值的比值 \(\frac{d_\sigma}{\sigma}\) 的函数,与 \(\mu,\sigma\) 本身无关。

最常用的均方损失取 \(\rho(t) = (1-t)^2\),即:

\[L(\mu,\sigma; d_\sigma) = \left( 1 - \frac{d_\sigma}{\sigma} \right)^2 = \frac{(d_\sigma - \sigma)^2}{\sigma^2} \]

3. 参数 \(\sigma^r\) 的同变损失函数

\(d\)\(\sigma^r\) 的估计,损失函数满足不变性:

\[L(\mu,\sigma; d) = L(m + k\mu, k\sigma; k^r d), \quad \forall m \in \mathbb{R}, k>0 \]

\(k = \frac{1}{\sigma}\)\(m = -\frac{\mu}{\sigma}\),代入化简得:

\[L(\mu,\sigma; d) = L\left( 0, 1; \frac{d}{\sigma^r} \right) = \rho\left( \frac{d}{\sigma^r} \right) \]

结论\(\sigma^r\) 的同变损失函数,是 \(\frac{d}{\sigma^r}\) 的函数,常用均方损失为:

\[L(\mu,\sigma; d) = \left( 1 - \frac{d}{\sigma^r} \right)^2 = \frac{(d - \sigma^r)^2}{\sigma^{2r}} \]


五、核心知识点归纳总结表

模块 核心内容 数学表达 关键性质/意义
位置尺度参数分布族 定义 \(p(x;\mu,\sigma) = \frac{1}{\sigma^n} f\left( \frac{x - \mu \mathbf{1}}{\sigma} \right)\) \(\mu\) 控制平移,\(\sigma\) 控制缩放,\(f(\cdot)\) 为标准分布密度
标准化性质 \(X \sim P_{(\mu,\sigma)} \implies \frac{X - \mu \mathbf{1}}{\sigma} \sim P_{(0,1)}\) 可将任意位置尺度分布转化为与参数无关的标准分布,是同变估计的基础
线性变换群 样本空间变换群 \(G\) \(g_{[m,k]} x = m\mathbf{1} + kx, \ m\in\mathbb{R},k>0\) 由平移+尺度变换构成,满足群的4条性质,是不变性分析的核心对象
参数空间导出群 \(\overline{G}\) \(\overline{g}_{[m,k]} (\mu,\sigma) = (m + k\mu, k\sigma)\) 样本变换诱导的参数变换,与 \(G\) 同态,证明了位置尺度族是不变分布族
不变分布族 \(X \sim P_{(\mu,\sigma)} \implies g_{[m,k]}X \sim P_{(\overline{g}_{[m,k]}(\mu,\sigma))}\) 样本经线性变换后,分布仍属于同一位置尺度族,仅参数同步变换
同变估计 \(\mu\) 的同变条件 \(\hat{\mu}(m\mathbf{1} + kx) = m + k\hat{\mu}(x)\) 样本平移/缩放,估计量同步平移/缩放
\(\sigma\) 的同变条件 \(\hat{\sigma}(m\mathbf{1} + kx) = k\hat{\sigma}(x)\) 样本平移不改变尺度估计,缩放时估计量同步缩放
\(\sigma^r\) 的同变条件 \(\widehat{\sigma^r}(m\mathbf{1} + kx) = k^r \widehat{\sigma^r}(x)\) 样本平移不改变 \(\sigma^r\) 估计,缩放时估计量按 \(k^r\) 同步变换
同变损失函数 \(\mu\) 的同变损失 \(L(\mu,\sigma;d_\mu) = \rho\left( \frac{d_\mu - \mu}{\sigma} \right)\) 仅与标准化估计误差有关,常用均方损失为 \(\frac{(d_\mu - \mu)^2}{\sigma^2}\)
\(\sigma\) 的同变损失 \(L(\mu,\sigma;d_\sigma) = \rho\left( \frac{d_\sigma}{\sigma} \right)\) 仅与估计值和真实值的比值有关,常用均方损失为 \(\frac{(d_\sigma - \sigma)^2}{\sigma^2}\)
\(\sigma^r\) 的同变损失 \(L(\mu,\sigma;d) = \rho\left( \frac{d}{\sigma^r} \right)\) 仅与估计值和真实值的比值有关,常用均方损失为 \(\frac{(d - \sigma^r)^2}{\sigma^{2r}}\)

位置尺度参数的最优同变估计 深度讲解与完整推导

作为深耕数理统计多年的研究员,我将从逻辑本源、完整推导、核心意义三个维度,逐层拆解位置尺度参数最优同变估计的全链条知识,确保你不仅懂公式,更懂背后的统计思想。


一、研究框架与核心前提

我们的研究建立在以下基础框架上,所有推导均围绕该框架展开:

核心要素 具体定义与说明
分布族 位置尺度参数分布族:\(X=(X_1,\dots,X_n)^\mathrm{T} \sim p(x;\mu,\sigma) = \frac{1}{\sigma^n}f\left( \frac{x-\mu\mathbf{1}}{\sigma} \right)\),其中 \(\mu\in\mathbb{R}\) 为位置参数,\(\sigma>0\) 为尺度参数,\(\mathbf{1}\) 为n维全1向量
变换群 线性变换群 \(G=\{g_{[m,k]}: g_{[m,k]}x = m\mathbf{1}+kx, m\in\mathbb{R},k>0\}\),包含平移变换(\(m\))和尺度变换(\(k\)
损失函数 均方同变损失:
\(\mu\) 的损失:\(L(\mu,\sigma;d_\mu)=\frac{(d_\mu-\mu)^2}{\sigma^2}\)
\(\sigma\) 的损失:\(L(\mu,\sigma;d_\sigma)=\frac{(d_\sigma-\sigma)^2}{\sigma^2}\)
核心目标 在所有满足同变条件的估计量中,找到风险最小的同变估计(MREE,最优同变估计)

前置核心结论回顾

  1. 同变条件:
    • \(\mu\) 的同变估计满足:\(\hat{\mu}(m\mathbf{1}+kx) = m + k\hat{\mu}(x)\)
    • \(\sigma\) 的同变估计满足:\(\hat{\sigma}(m\mathbf{1}+kx) = k\hat{\sigma}(x)\)
  2. 标准化性质:若 \(X \sim P_{(\mu,\sigma)}\),则 \(Z=\frac{X-\mu\mathbf{1}}{\sigma} \sim P_{(0,1)}\)(标准分布,与 \(\mu,\sigma\) 无关)
  3. 不变量定义:统计量 \(u(x)\) 若满足 \(u(g_{[m,k]}x)=u(x)\),则称其为线性变换群下的不变量(样本平移缩放后,统计量值不变)

二、同变估计的结构刻画:三大核心引理

要找到最优同变估计,首先要刻画所有同变估计的通用形式,这是三大引理的核心价值。

引理4.4.1 同变估计与不变量的关系

引理内容

\(\hat{\mu}_1(x),\hat{\mu}_2(x)\)\(\mu\) 的同变估计,\(\hat{\sigma}_1(x),\hat{\sigma}_2(x)\)\(\sigma\) 的同变估计,则:

\[u(x) = \frac{\hat{\mu}_1(x)-\hat{\mu}_2(x)}{\hat{\sigma}_1(x)}, \quad v(x) = \frac{\hat{\sigma}_1(x)}{\hat{\sigma}_2(x)} \]

是线性变换群下的不变量。

反之,若 \(\hat{\mu}_1(x),\hat{\sigma}_1(x)\) 是同变估计,\(u(x),v(x)\) 是不变量,则:

\[\hat{\mu}_2(x) = \hat{\mu}_1(x) + \hat{\sigma}_1(x)u(x), \quad \hat{\sigma}_2(x) = \hat{\sigma}_1(x)v(x) \]

也是同变估计。

完整证明

正向证明:\(u(x),v(x)\) 是不变量
  1. \(u(x)\),代入同变条件:

\[\begin{align*} u(m\mathbf{1}+kx) &= \frac{\hat{\mu}_1(m\mathbf{1}+kx) - \hat{\mu}_2(m\mathbf{1}+kx)}{\hat{\sigma}_1(m\mathbf{1}+kx)} \\ &= \frac{\left[m + k\hat{\mu}_1(x)\right] - \left[m + k\hat{\mu}_2(x)\right]}{k\hat{\sigma}_1(x)} \\ &= \frac{k\left[\hat{\mu}_1(x)-\hat{\mu}_2(x)\right]}{k\hat{\sigma}_1(x)} = u(x) \end{align*} \]

  1. \(v(x)\),同理代入同变条件:

\[v(m\mathbf{1}+kx) = \frac{\hat{\sigma}_1(m\mathbf{1}+kx)}{\hat{\sigma}_2(m\mathbf{1}+kx)} = \frac{k\hat{\sigma}_1(x)}{k\hat{\sigma}_2(x)} = v(x) \]

因此 \(u(x),v(x)\) 满足不变量定义,正向得证。

反向证明:构造的估计量是同变估计
  1. \(\hat{\mu}_2(x)\),验证同变条件:

\[\begin{align*} \hat{\mu}_2(m\mathbf{1}+kx) &= \hat{\mu}_1(m\mathbf{1}+kx) + \hat{\sigma}_1(m\mathbf{1}+kx) \cdot u(m\mathbf{1}+kx) \\ &= \left[m + k\hat{\mu}_1(x)\right] + k\hat{\sigma}_1(x) \cdot u(x) \\ &= m + k\left[\hat{\mu}_1(x) + \hat{\sigma}_1(x)u(x)\right] = m + k\hat{\mu}_2(x) \end{align*} \]

  1. \(\hat{\sigma}_2(x)\),同理验证:

\[\hat{\sigma}_2(m\mathbf{1}+kx) = \hat{\sigma}_1(m\mathbf{1}+kx) \cdot v(m\mathbf{1}+kx) = k\hat{\sigma}_1(x) \cdot v(x) = k\hat{\sigma}_2(x) \]

完全满足同变条件,反向得证。

核心意义

该引理揭示:所有同变估计都可以通过一个基准同变估计,叠加不变量的调整得到,将无穷多的同变估计,转化为关于不变量的函数优化问题。


引理4.4.2 不变量的充要条件与最大不变量

核心概念补充:最大不变量

若统计量 \(V(x)\) 满足:

  1. 自身是不变量;
  2. \(V(x)=V(y)\),则必存在 \(g\in G\) 使得 \(y=gx\)(两个样本的最大不变量相等,当且仅当它们在同一变换轨道上)。

则称 \(V(x)\)最大不变量,它是最精细的不变量,所有不变量都可表示为最大不变量的函数。

引理内容

\(u(x)\) 是线性变换群下的不变量,当且仅当 \(u(x)=\psi(V)\),其中最大不变量:

\[V = V(x) = \left( \frac{x_2-x_1}{|x_2-x_1|}, \frac{x_3-x_1}{x_2-x_1}, \dots, \frac{x_n-x_1}{x_2-x_1} \right)^\mathrm{T} \]

且不变量的分布仅与标准分布有关,与 \(\mu,\sigma\) 无关(即辅助统计量)。

完整证明

必要性:不变量必为最大不变量的函数

由不变量定义,对任意 \(m,k\)\(u(m\mathbf{1}+kx)=u(x)\)。取特殊值:

\[k = \frac{1}{|x_2-x_1|}, \quad m = -\frac{x_1}{|x_2-x_1|} \]

对样本做变换 \(g_{[m,k]}x\),得到:

  • 第1分量:\(m + kx_1 = 0\)
  • 第2分量:\(m + kx_2 = \frac{x_2-x_1}{|x_2-x_1|} = V_2\)
  • \(i\geq3\)分量:\(m + kx_i = \frac{x_i-x_1}{|x_2-x_1|} = V_2 \cdot \frac{x_i-x_1}{x_2-x_1} = V_2 V_i\)

因此变换后的样本为 \((0, V_2, V_2V_3, \dots, V_2V_n)\),仅与 \(V\) 有关。由不变性:

\[u(x) = u(g_{[m,k]}x) = u(0, V_2, V_2V_3, \dots, V_2V_n) = \psi(V) \]

必要性得证。

充分性:最大不变量的函数是不变量

只需证明 \(V(g_{[m,k]}x)=V(x)\)

  • \(V_i=\frac{x_i-x_1}{x_2-x_1} (i\geq3)\)

    \[V_i(gx) = \frac{(m+kx_i)-(m+kx_1)}{(m+kx_2)-(m+kx_1)} = \frac{k(x_i-x_1)}{k(x_2-x_1)} = V_i(x) \]

  • \(V_2=\frac{x_2-x_1}{|x_2-x_1|}\),因 \(k>0\),故:

    \[V_2(gx) = \frac{k(x_2-x_1)}{|k(x_2-x_1)|} = \frac{x_2-x_1}{|x_2-x_1|} = V_2(x) \]

因此 \(V(gx)=V(x)\)\(V\) 是不变量,故 \(u(x)=\psi(V)\) 也是不变量,充分性得证。

最大不变量的验证

\(V(x)=V(y)\),取 \(k=\frac{y_2-y_1}{x_2-x_1}>0\)\(m=y_1 - kx_1\),可验证对所有 \(i\)\(y_i = m + kx_i\),即 \(y=g_{[m,k]}x\),满足最大不变量定义。

分布与参数无关的证明

\(V(x)=V\left( \frac{x-\mu\mathbf{1}}{\sigma} \right)\),而 \(\frac{X-\mu\mathbf{1}}{\sigma} \sim P_{(0,1)}\)\(\mu,\sigma\) 无关,故 \(V(X)\) 的分布仅由标准分布决定,与参数无关,是辅助统计量。

核心意义

该引理将所有不变量统一为最大不变量 \(V\) 的函数,且 \(V\) 的分布与参数无关,为后续将风险转化为标准分布下的期望奠定了基础。


引理4.4.3 同变估计的通用表达式

引理内容

\(\hat{\mu}(x),\hat{\sigma}(x)\) 是某一组基准同变估计,则任意同变估计都可表示为:

\[\hat{\mu}^*(x) = \hat{\mu}(x) + \hat{\sigma}(x)\psi(V), \quad \hat{\sigma}^*(x) = \hat{\sigma}(x)\varphi(V) \]

其中 \(\psi(V),\varphi(V)\) 是最大不变量 \(V\) 的函数。

完整证明

对任意同变估计 \(\hat{\mu}^*(x)\),由引理4.4.1,\(u(x)=\frac{\hat{\mu}^*(x)-\hat{\mu}(x)}{\hat{\sigma}(x)}\) 是不变量;再由引理4.4.2,不变量必为 \(V\) 的函数,记为 \(\psi(V)\),因此:

\[\frac{\hat{\mu}^*(x)-\hat{\mu}(x)}{\hat{\sigma}(x)} = \psi(V) \implies \hat{\mu}^*(x) = \hat{\mu}(x) + \hat{\sigma}(x)\psi(V) \]

同理,对 \(\hat{\sigma}^*(x)\)\(v(x)=\frac{\hat{\sigma}^*(x)}{\hat{\sigma}(x)}\) 是不变量,记为 \(\varphi(V)\),故 \(\hat{\sigma}^*(x)=\hat{\sigma}(x)\varphi(V)\),证明完成。

核心意义

该引理是整个最优同变估计求解的核心基石:它将“寻找无穷多同变估计中的最优解”,转化为“寻找两个函数 \(\psi(\cdot),\varphi(\cdot)\) 使得风险最小”的有限维优化问题,彻底简化了求解难度。


三、核心定理:Pitman定理(最优同变估计的闭式解)

定理内容

\(\hat{\mu}(X),\hat{\sigma}(X)\)\(\mu,\sigma\) 的任意一组同变估计,在均方损失下,\(\mu,\sigma\)唯一最优同变估计为:

\[\hat{\mu}^*(X) = \hat{\mu}(X) - \hat{\sigma}(X) \frac{\mathrm{E}_{(0,1)}\left[ \hat{\mu}(X)\hat{\sigma}(X) \mid V \right]}{\mathrm{E}_{(0,1)}\left[ \hat{\sigma}^2(X) \mid V \right]} \tag{4.4.9} \]

\[\hat{\sigma}^*(X) = \hat{\sigma}(X) \frac{\mathrm{E}_{(0,1)}\left[ \hat{\sigma}(X) \mid V \right]}{\mathrm{E}_{(0,1)}\left[ \hat{\sigma}^2(X) \mid V \right]} \tag{4.4.10} \]

其中 \(\mathrm{E}_{(0,1)}\) 表示在标准分布 \(P_{(0,1)}\)\(\mu=0,\sigma=1\))下的期望,且解与基准同变估计的选取无关。


完整推导与证明

我们分三步完成证明:风险的标准化转化、优化求解最优函数、唯一性与无关性证明。

步骤1:风险的标准化转化(同变估计的风险为常数)

同变估计的风险是损失函数的期望,我们利用同变性质,将其转化为标准分布下的期望,消除参数 \(\mu,\sigma\) 的影响。

\(\mu\) 的同变估计风险

任一同变估计 \(\hat{\mu}^*(X) = \hat{\mu}(X) + \hat{\sigma}(X)\psi(V)\),均方损失为 \(L=\left( \frac{\hat{\mu}^* - \mu}{\sigma} \right)^2\),风险为:

\[R(\mu,\sigma;\hat{\mu}^*) = \mathrm{E}_{(\mu,\sigma)} \left[ \left( \frac{\hat{\mu}^*(X) - \mu}{\sigma} \right)^2 \right] \]

\(Z=\frac{X-\mu\mathbf{1}}{\sigma} \sim P_{(0,1)}\),由同变条件:

  • \(\hat{\mu}(X) = \hat{\mu}(\sigma Z + \mu\mathbf{1}) = \mu + \sigma \hat{\mu}(Z)\)
  • \(\hat{\sigma}(X) = \hat{\sigma}(\sigma Z + \mu\mathbf{1}) = \sigma \hat{\sigma}(Z)\)
  • \(V(X)=V(Z)\)\(V\) 是不变量)

因此:

\[\frac{\hat{\mu}^*(X) - \mu}{\sigma} = \frac{\mu + \sigma\hat{\mu}(Z) + \sigma\hat{\sigma}(Z)\psi(V(Z)) - \mu}{\sigma} = \hat{\mu}(Z) + \hat{\sigma}(Z)\psi(V(Z)) \]

风险可改写为标准分布下的期望:

\[R(\mu,\sigma;\hat{\mu}^*) = \mathrm{E}_{(0,1)} \left[ \left( \hat{\mu}(Z) + \hat{\sigma}(Z)\psi(V(Z)) \right)^2 \right] \]

该期望与 \(\mu,\sigma\) 完全无关,是常数。

\(\sigma\) 的同变估计风险

任一同变估计 \(\hat{\sigma}^*(X) = \hat{\sigma}(X)\varphi(V)\),均方损失为 \(L=\left( \frac{\hat{\sigma}^*}{\sigma} - 1 \right)^2\),同理可得:

\[\frac{\hat{\sigma}^*(X)}{\sigma} = \frac{\sigma\hat{\sigma}(Z)\varphi(V(Z))}{\sigma} = \hat{\sigma}(Z)\varphi(V(Z)) \]

风险为:

\[R(\mu,\sigma;\hat{\sigma}^*) = \mathrm{E}_{(0,1)} \left[ \left( \hat{\sigma}(Z)\varphi(V(Z)) - 1 \right)^2 \right] \]

同样与 \(\mu,\sigma\) 无关。


步骤2:最小化期望,求解最优函数 \(\psi^*(V),\varphi^*(V)\)

我们利用期望迭代法则 \(\mathrm{E}[W] = \mathrm{E}\left[ \mathrm{E}[W \mid V] \right]\),将期望拆分为条件期望,转化为一元二次函数的最小值问题。

求解 \(\mu\) 的最优 \(\psi^*(V)\)

将风险改写为:

\[Q(\psi) = \mathrm{E}_{(0,1)} \left[ \mathrm{E}\left( \left. \left( \hat{\mu} + \hat{\sigma}\psi(V) \right)^2 \right| V \right) \right] \]

给定 \(V\) 时,\(\psi(V)\) 是常数,展开条件期望:

\[\mathrm{E}\left( \left. \left( \hat{\mu} + \hat{\sigma}\psi \right)^2 \right| V \right) = \underbrace{\mathrm{E}(\hat{\sigma}^2 \mid V)}_{A>0} \cdot \psi^2 + \underbrace{2\mathrm{E}(\hat{\mu}\hat{\sigma} \mid V)}_{B} \cdot \psi + \underbrace{\mathrm{E}(\hat{\mu}^2 \mid V)}_{C} \]

这是关于 \(\psi\) 的一元二次函数,\(A>0\),最小值在 \(\psi = -\frac{B}{2A}\) 处取得,因此最优解为:

\[\psi^*(V) = -\frac{\mathrm{E}_{(0,1)}\left( \hat{\mu}\hat{\sigma} \mid V \right)}{\mathrm{E}_{(0,1)}\left( \hat{\sigma}^2 \mid V \right)} \]

代入同变估计表达式,得到 \(\mu\) 的最优同变估计,即式(4.4.9)。

求解 \(\sigma\) 的最优 \(\varphi^*(V)\)

同理,将风险改写为:

\[Q(\varphi) = \mathrm{E}_{(0,1)} \left[ \mathrm{E}\left( \left. \left( \hat{\sigma}\varphi(V) - 1 \right)^2 \right| V \right) \right] \]

展开条件期望:

\[\mathrm{E}\left( \left. \left( \hat{\sigma}\varphi - 1 \right)^2 \right| V \right) = \underbrace{\mathrm{E}(\hat{\sigma}^2 \mid V)}_{A>0} \cdot \varphi^2 - \underbrace{2\mathrm{E}(\hat{\sigma} \mid V)}_{B} \cdot \varphi + 1 \]

一元二次函数最小值在 \(\varphi = \frac{B}{2A}\) 处取得,因此最优解为:

\[\varphi^*(V) = \frac{\mathrm{E}_{(0,1)}\left( \hat{\sigma} \mid V \right)}{\mathrm{E}_{(0,1)}\left( \hat{\sigma}^2 \mid V \right)} \]

代入同变估计表达式,得到 \(\sigma\) 的最优同变估计,即式(4.4.10)。


步骤3:唯一性与基准无关性证明

  1. 唯一性:一元二次函数的最小值点唯一,因此 \(\psi^*(V),\varphi^*(V)\) 唯一,最优同变估计唯一。
  2. 基准无关性:若选取另一组基准同变估计 \(\hat{\mu}_1 = \hat{\mu} + \hat{\sigma}\psi_0(V)\)\(\hat{\sigma}_1 = \hat{\sigma}\varphi_0(V)\),代入最优公式后,\(\psi_0(V),\varphi_0(V)\) 会完全抵消,最终结果与原基准完全一致(详细推导见附录)。

四、三大实用推论

Pitman定理给出了通用解,三个推论则针对不同场景大幅简化计算。

推论1 最简基准同变估计的闭式解

取最简单的基准同变估计 \(\hat{\mu}(X)=X_1\)\(\hat{\sigma}(X)=|X_2-X_1|\),代入Pitman定理得:

\[\hat{\mu}^*(X) = X_1 - |X_2 - X_1| \frac{\mathrm{E}_{(0,1)}\left( X_1 |X_2 - X_1| \mid V \right)}{\mathrm{E}_{(0,1)}\left( (X_2 - X_1)^2 \mid V \right)} \]

\[\hat{\sigma}^*(X) = |X_2 - X_1| \frac{\mathrm{E}_{(0,1)}\left( |X_2 - X_1| \mid V \right)}{\mathrm{E}_{(0,1)}\left( (X_2 - X_1)^2 \mid V \right)} \]

意义:无需构造复杂的基准估计,直接用样本分量即可求解最优同变估计。


推论2 \(\sigma^r\) 的最优同变估计

\(\delta(X)\)\(\sigma^r\) 的同变估计(满足 \(\delta(m\mathbf{1}+kx)=k^r\delta(x)\)),则 \(\sigma^r\) 的最优同变估计为:

\[\delta^*(X) = \delta(X) \frac{\mathrm{E}_{(0,1)}\left( \delta(X) \mid V \right)}{\mathrm{E}_{(0,1)}\left( \delta^2(X) \mid V \right)} \]

意义:将最优同变估计推广到 \(\sigma\) 的任意幂次(如方差 \(\sigma^2\)、标准差 \(\sigma\)),推导逻辑与 \(\sigma\) 完全一致。


推论3 完备充分统计量下的简化公式

\(T=T(X)\) 是分布族的完备充分统计量,且基准同变估计可表示为 \(\hat{\mu}(X)=a(T)\)\(\hat{\sigma}(X)=b(T)\),则Pitman定理中的条件期望可替换为无条件期望

证明核心

由Basu定理:完备充分统计量与辅助统计量独立。我们已证明 \(V\) 是辅助统计量,因此 \(T\)\(V\) 独立,条件期望等于无条件期望:

\[\mathrm{E}_{(0,1)}[\hat{\mu}\hat{\sigma} \mid V] = \mathrm{E}_{(0,1)}[a(T)b(T)], \quad \mathrm{E}_{(0,1)}[\hat{\sigma}^2 \mid V] = \mathrm{E}_{(0,1)}[b^2(T)] \]

意义:对于指数族分布(正态、伽马、指数分布等),可直接通过完备充分统计量简化计算,无需求解复杂的条件期望,是实际应用中最常用的结论。


五、典型应用案例

案例1 正态分布 \(N(\mu,\sigma^2)\) 的最优同变估计

\(X_1,\dots,X_n\) iid,\(X_1 \sim N(\mu,\sigma^2)\),求 \((\mu,\sigma^2)\) 的最优同变估计。

求解步骤

  1. 完备充分统计量\(T=(\bar{X}, S^2)\),其中 \(\bar{X}=\frac{1}{n}\sum X_i\)\(S^2=\sum_{i=1}^n (X_i-\bar{X})^2\)
  2. 基准同变估计
    • \(\hat{\mu}(X)=\bar{X}\),满足同变条件 \(\bar{X}(m\mathbf{1}+kx)=m+k\bar{X}\)
    • \(\hat{\sigma^2}(X)=S^2\),满足同变条件 \(S^2(m\mathbf{1}+kx)=k^2S^2\)
  3. 标准分布下的期望(\(\mu=0,\sigma=1\)
    • \(\bar{X} \sim N(0,1/n)\)\(\mathrm{E}[\bar{X}]=0\),且 \(\bar{X}\)\(S^2\) 独立
    • \(S^2 \sim \chi^2(n-1)\)\(\mathrm{E}[S^2]=n-1\)\(\mathrm{E}[(S^2)^2]=(n-1)(n+1)\)
  4. 代入推论3求解
    • \(\mu\) 的最优估计:\(\hat{\mu}^*(X) = \bar{X} - S \cdot \frac{\mathrm{E}[\bar{X}S]}{\mathrm{E}[S^2]} = \bar{X}\)(因 \(\mathrm{E}[\bar{X}]=0\)
    • \(\sigma^2\) 的最优估计:\(\widehat{\sigma^2}^*(X) = S^2 \cdot \frac{\mathrm{E}[S^2]}{\mathrm{E}[(S^2)^2]} = \frac{1}{n+1}S^2\)

结果对比

估计类型 \(\mu\) 的估计 \(\sigma^2\) 的估计
最优同变估计(MREE) \(\bar{X}\) \(\frac{S^2}{n+1}\)
最大似然估计(MLE) \(\bar{X}\) \(\frac{S^2}{n}\)
无偏估计(UMVUE) \(\bar{X}\) \(\frac{S^2}{n-1}\)

结论:在均方损失下,\(\frac{S^2}{n+1}\) 的风险小于MLE和无偏估计,是最优的。


案例2 平移指数分布的最优同变估计

\(X_1,\dots,X_n\) iid,\(X_1 \sim \mu + \text{Exp}(1/\sigma)\)(平移指数分布),求 \((\mu,\sigma)\) 的最优同变估计。

求解步骤

  1. 完备充分统计量\(T=(X_{(1)}, S)\),其中 \(X_{(1)}=\min X_i\)\(S=\sum_{i=1}^n (X_i - X_{(1)})\)
  2. 基准同变估计\(\hat{\mu}(X)=X_{(1)}\)\(\hat{\sigma}(X)=S\),均满足同变条件
  3. 标准分布下的期望(\(\mu=0,\sigma=1\)
    • \(X_{(1)} \sim \text{Exp}(n)\)\(\mathrm{E}[X_{(1)}]=1/n\)
    • \(S \sim \Gamma(n-1,1)\)\(\mathrm{E}[S]=n-1\)\(\mathrm{E}[S^2]=n(n-1)\)
    • \(X_{(1)}\)\(S\) 独立
  4. 代入推论3求解
    • \(\mu\) 的最优估计:\(\hat{\mu}^*(X) = X_{(1)} - S \cdot \frac{\mathrm{E}[X_{(1)}S]}{\mathrm{E}[S^2]} = X_{(1)} - \frac{1}{n^2}S\)
    • \(\sigma\) 的最优估计:\(\hat{\sigma}^*(X) = S \cdot \frac{\mathrm{E}[S]}{\mathrm{E}[S^2]} = \frac{1}{n}S\)

结果对比

估计类型 \(\mu\) 的估计 \(\sigma\) 的估计
最优同变估计(MREE) \(X_{(1)} - \frac{S}{n^2}\) \(\frac{S}{n}\)
最大似然估计(MLE) \(X_{(1)}\) \(\frac{S}{n}\)
无偏估计(UMVUE) \(X_{(1)} - \frac{S}{n(n-1)}\) \(\frac{S}{n-1}\)

结论:在均方损失下,MREE的风险显著优于MLE和UMVUE。


六、全知识点归纳总结表

模块 核心内容 关键结论 核心意义
基础概念 位置尺度分布族、线性变换群、同变条件、不变量 同变估计随样本同步变换,不变量不随样本变换改变 定义研究对象的基本规则,明确同变估计的约束条件
引理4.4.1 同变估计与不变量的关系 两个同变估计的差/比是不变量,用不变量可构造新的同变估计 建立同变估计与不变量的联系,为刻画同变估计结构铺垫
引理4.4.2 最大不变量与不变量的充要条件 所有不变量都是最大不变量 \(V\) 的函数,\(V\) 的分布与参数无关 统一不变量的表达形式,消除参数对不变量分布的影响
引理4.4.3 同变估计的通用表达式 任一同变估计都可表示为基准同变估计+不变量的调整 将无穷维的估计问题转化为有限维的函数优化问题
Pitman定理 最优同变估计的闭式解 均方损失下,唯一最优同变估计由标准分布下的条件期望给出 给出最优同变估计的通用求解公式,是整个理论的核心
推论1 最简基准估计的解 \(X_1\) 和 $ X_2-X_1
推论2 \(\sigma^r\) 的最优估计 推广到 \(\sigma\) 的任意幂次,公式形式与 \(\sigma\) 一致 拓展最优同变估计的适用范围
推论3 完备充分统计量下的简化 条件期望可替换为无条件期望,大幅简化计算 解决实际应用中的计算难题,是工程中最常用的结论
应用案例 正态分布、平移指数分布的MREE MREE在均方损失下的风险小于MLE和UMVUE 验证理论的实用性,展示最优同变估计的优势

附录:基准无关性的详细推导

设新基准同变估计为 \(\hat{\mu}_1 = \hat{\mu} + \hat{\sigma}\psi_0(V)\)\(\hat{\sigma}_1 = \hat{\sigma}\varphi_0(V)\),代入Pitman公式:

\[\begin{align*} \hat{\mu}_1 - \hat{\sigma}_1 \frac{\mathrm{E}[\hat{\mu}_1\hat{\sigma}_1 \mid V]}{\mathrm{E}[\hat{\sigma}_1^2 \mid V]} &= (\hat{\mu} + \hat{\sigma}\psi_0) - \hat{\sigma}\varphi_0 \cdot \frac{\mathrm{E}[(\hat{\mu} + \hat{\sigma}\psi_0)\hat{\sigma}\varphi_0 \mid V]}{\mathrm{E}[\hat{\sigma}^2\varphi_0^2 \mid V]} \\ &= \hat{\mu} + \hat{\sigma}\psi_0 - \hat{\sigma}\varphi_0 \cdot \frac{\varphi_0 \mathrm{E}[\hat{\mu}\hat{\sigma} \mid V] + \varphi_0\psi_0 \mathrm{E}[\hat{\sigma}^2 \mid V]}{\varphi_0^2 \mathrm{E}[\hat{\sigma}^2 \mid V]} \\ &= \hat{\mu} + \hat{\sigma}\psi_0 - \hat{\sigma} \cdot \frac{\mathrm{E}[\hat{\mu}\hat{\sigma} \mid V]}{\mathrm{E}[\hat{\sigma}^2 \mid V]} - \hat{\sigma}\psi_0 \\ &= \hat{\mu} - \hat{\sigma} \frac{\mathrm{E}[\hat{\mu}\hat{\sigma} \mid V]}{\mathrm{E}[\hat{\sigma}^2 \mid V]} \end{align*} \]

与原基准的结果完全一致,基准无关性得证。


Pitman积分公式 深度讲解与完整推导

作为深耕数理统计领域的资深研究员,我将从公式本质、完整证明、核心解读、应用验证四个维度,系统拆解Pitman积分公式,让你不仅掌握公式形式,更理解其统计思想与应用逻辑。


一、定理核心内容与前置背景

1. 前置背景回顾

我们已经知道,位置尺度参数分布族的联合密度为:

\[p(x;\mu,\sigma) = \frac{1}{\sigma^n} f\left( \frac{x_1-\mu}{\sigma}, \frac{x_2-\mu}{\sigma}, \dots, \frac{x_n-\mu}{\sigma} \right) = \frac{1}{\sigma^n} f\left( \frac{x-\mu\mathbf{1}}{\sigma} \right) \]

其中 \(\mu\in\mathbb{R}\) 为位置参数,\(\sigma>0\) 为尺度参数,\(f(\cdot)\)\(\mu=0,\sigma=1\) 时的标准分布密度。

此前我们通过Pitman定理得到了最优同变估计的条件期望形式,但该形式需要先选取基准同变估计、计算复杂的条件期望,Pitman积分公式则彻底解决了这个问题——直接通过样本密度的二重积分,一步算出最优同变估计,无需任何前置构造

2. 定理4.4.2(Pitman积分公式)

设样本 \(X=(X_1,\dots,X_n)^\mathrm{T}\) 服从上述位置尺度参数分布族,在均方损失下,\(\mu\)\(\sigma\)唯一最优同变估计(MREE)为:

\[\hat{\mu}^*(X) = \frac{\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \mu \cdot \sigma^{-3} \cdot p(X;\mu,\sigma) \mathrm{d}\mu}{\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-3} \cdot p(X;\mu,\sigma) \mathrm{d}\mu} \tag{1} \]

\[\hat{\sigma}^*(X) = \frac{\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-2} \cdot p(X;\mu,\sigma) \mathrm{d}\mu}{\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-3} \cdot p(X;\mu,\sigma) \mathrm{d}\mu} \tag{2} \]


二、完整严谨的证明过程

证明的核心思路:从之前的最优同变估计条件期望形式出发,通过样本变换、条件密度展开、变量替换,最终将条件期望转化为关于 \(\mu,\sigma\) 的二重积分。

步骤1:从基准同变估计的最优形式出发

根据之前的推论1,取最简单的基准同变估计 \(\hat{\mu}(X)=X_1\)\(\hat{\sigma}(X)=|X_2-X_1|\),则最优同变估计为:

\[\hat{\mu}^*(X) = X_1 - |X_2 - X_1| \cdot \frac{\mathrm{E}_{(0,1)}\left[ X_1 |X_2 - X_1| \mid V \right]}{\mathrm{E}_{(0,1)}\left[ (X_2 - X_1)^2 \mid V \right]} \tag{3} \]

\[\hat{\sigma}^*(X) = |X_2 - X_1| \cdot \frac{\mathrm{E}_{(0,1)}\left[ |X_2 - X_1| \mid V \right]}{\mathrm{E}_{(0,1)}\left[ (X_2 - X_1)^2 \mid V \right]} \tag{4} \]

其中最大不变量 \(V=(V_2,V_3,\dots,V_n)\)\(V_2=\frac{X_2-X_1}{|X_2-X_1|}=\pm1\)\(V_i=\frac{X_i-X_1}{X_2-X_1} \ (i\geq3)\)\(\mathrm{E}_{(0,1)}\) 表示标准分布(\(\mu=0,\sigma=1\))下的期望。

步骤2:样本变换与联合密度分解

为了计算条件期望,我们对样本做一一变换,将样本分解为「自由变量」和「不变量」:

\[U_1 = X_1, \quad U_2 = X_2 - X_1, \quad V_i = \frac{X_i - X_1}{X_2 - X_1} \ (i=3,\dots,n) \]

其逆变换为:

\[X_1=U_1, \ X_2=U_1+U_2, \ X_i=U_1+U_2 V_i \ (i\geq3) \]

计算该变换的Jacobi行列式绝对值:通过分块矩阵计算可得 \(|J|=|U_2|^{n-2}\),因此标准分布下 \((U_1,U_2,V)\) 的联合密度为:

\[p_{U_1,U_2,V}(u_1,u_2,v_3,\dots,v_n) = f(u_1, u_1+u_2, u_1+u_2 v_3, \dots, u_1+u_2 v_n) \cdot |u_2|^{n-2} \]

其中 \(f(\cdot)\) 是标准分布的联合密度。

步骤3:条件期望的积分展开

根据条件密度公式,给定 \(V\) 时,\((U_1,U_2)\) 的条件密度为联合密度除以 \(V\) 的边缘密度,因此条件期望可展开为:

\[\mathrm{E}_{(0,1)}\left[ U_1 |U_2| \mid V \right] = \frac{\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} u_1 |u_2| \cdot f(\cdot) |u_2|^{n-2} \mathrm{d}u_1 \mathrm{d}u_2}{\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(\cdot) |u_2|^{n-2} \mathrm{d}u_1 \mathrm{d}u_2} \]

\[\mathrm{E}_{(0,1)}\left[ U_2^2 \mid V \right] = \frac{\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} u_2^2 \cdot f(\cdot) |u_2|^{n-2} \mathrm{d}u_1 \mathrm{d}u_2}{\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(\cdot) |u_2|^{n-2} \mathrm{d}u_1 \mathrm{d}u_2} \]

两者相除,分母的边缘密度抵消,化简得:

\[\frac{\mathrm{E}\left[ U_1 |U_2| \mid V \right]}{\mathrm{E}\left[ U_2^2 \mid V \right]} = \frac{\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} u_1 |u_2|^{n-1} \cdot f\left( \frac{x-\mu\mathbf{1}}{\sigma} \right) \mathrm{d}u_1 \mathrm{d}u_2}{\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} |u_2|^n \cdot f\left( \frac{x-\mu\mathbf{1}}{\sigma} \right) \mathrm{d}u_1 \mathrm{d}u_2} \tag{5} \]

步骤4:变量替换,转化为关于 \(\mu,\sigma\) 的积分

我们做核心变量替换,将标准化变量 \((u_1,u_2)\) 转化为参数 \((\mu,\sigma)\)

\[u_1 = \frac{X_1 - \mu}{\sigma}, \quad u_2 = \frac{X_2 - X_1}{\sigma} \]

其逆变换为 \(\mu = X_1 - \sigma u_1\)\(\sigma = \frac{|X_2 - X_1|}{|u_2|}\),计算Jacobi行列式绝对值:

\[\left| \frac{\partial(u_1,u_2)}{\partial(\mu,\sigma)} \right| = \frac{|X_2 - X_1|}{\sigma^3} \implies |\mathrm{d}u_1 \mathrm{d}u_2| = \frac{|X_2 - X_1|}{\sigma^3} \mathrm{d}\mu \mathrm{d}\sigma \]

同时,根据位置尺度密度的定义,有:

\[f\left( \frac{X_1-\mu}{\sigma}, \frac{X_2-\mu}{\sigma}, \dots, \frac{X_n-\mu}{\sigma} \right) = \sigma^n \cdot p(X;\mu,\sigma) \]

将上述结果代入式(5)的分子和分母:

分子化简

\[\begin{align*} &\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} u_1 |u_2|^{n-1} f(\cdot) \mathrm{d}u_1 \mathrm{d}u_2 \\ =& \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \frac{X_1-\mu}{\sigma} \cdot \left| \frac{X_2-X_1}{\sigma} \right|^{n-1} \cdot \sigma^n p(X;\mu,\sigma) \cdot \frac{|X_2-X_1|}{\sigma^3} \mathrm{d}\mu \\ =& |X_2-X_1|^n \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} (X_1-\mu) \cdot \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \end{align*} \]

分母化简

\[\begin{align*} &\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} |u_2|^n f(\cdot) \mathrm{d}u_1 \mathrm{d}u_2 \\ =& \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \left| \frac{X_2-X_1}{\sigma} \right|^n \cdot \sigma^n p(X;\mu,\sigma) \cdot \frac{|X_2-X_1|}{\sigma^3} \mathrm{d}\mu \\ =& |X_2-X_1|^{n+1} \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \end{align*} \]

步骤5:代入最优估计表达式,完成证明

将分子分母代入式(3),\(|X_2-X_1|\) 项完全抵消:

\[\begin{align*} \hat{\mu}^*(X) &= X_1 - |X_2-X_1| \cdot \frac{|X_2-X_1|^n \int_{0}^{+\infty}\int_{-\infty}^{+\infty} (X_1-\mu)\sigma^{-3} p \mathrm{d}\mu \mathrm{d}\sigma}{|X_2-X_1|^{n+1} \int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-3} p \mathrm{d}\mu \mathrm{d}\sigma} \\ &= X_1 - \frac{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} (X_1-\mu)\sigma^{-3} p \mathrm{d}\mu \mathrm{d}\sigma}{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-3} p \mathrm{d}\mu \mathrm{d}\sigma} \\ &= \frac{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \mu \cdot \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma} \end{align*} \]

\(\mu\) 的最优估计公式得证。

同理,将 \(\mathrm{E}[|U_2| \mid V]\) 做相同的变量替换和化简,代入式(4),即可得到 \(\sigma\) 的最优估计公式,证明完成。


三、核心解读与关键说明

1. 公式的本质:贝叶斯后验期望

Pitman积分公式本质上是无信息先验下的贝叶斯后验期望

  • 位置尺度参数的Jeffreys无信息先验为 \(\pi(\mu,\sigma) = \sigma^{-2}\)
  • 似然函数为 \(L(\mu,\sigma|X) = p(X;\mu,\sigma)\)
  • 后验密度为 \(\pi(\mu,\sigma|X) \propto \sigma^{-2} p(X;\mu,\sigma)\)

此时:

  • \(\mu\) 的后验期望为 \(\mathrm{E}[\mu|X] = \frac{\int\int \mu \cdot \sigma^{-2} p \mathrm{d}\mu \mathrm{d}\sigma}{\int\int \sigma^{-2} p \mathrm{d}\mu \mathrm{d}\sigma}\),与公式(1)仅差一个 \(\sigma^{-1}\) 的常数权重,本质完全一致;
  • 这也解释了为什么Pitman积分公式得到的估计是最优的——它同时满足同变性和最小均方风险,是频率派与贝叶斯派结果的完美统一。

2. 核心优势与适用范围

优势 具体说明
通用性极强 所有位置尺度分布族均成立,无论是否存在充分统计量,无论分布是连续型还是离散型(离散型将积分替换为求和即可)
计算门槛低 无需构造基准同变估计、无需计算复杂的条件期望,仅需代入样本密度做二重积分,可直接编程实现
结果唯一最优 得到的估计是均方损失下唯一的最小风险同变估计,在同变估计类中风险全局最小

3. 使用前提

公式的使用前提是积分收敛,即分母的积分:

\[\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu < +\infty \]

对于正态分布、均匀分布、平移指数分布、拉普拉斯分布等绝大多数常见位置尺度分布,该积分均收敛。


四、应用验证:正态分布的最优同变估计

我们以正态分布为例,用Pitman积分公式计算最优同变估计,验证其与之前结论的一致性。

\(X_1,\dots,X_n\) 独立同分布,\(X_1 \sim N(\mu,\sigma^2)\),样本联合密度为:

\[p(X;\mu,\sigma) = (2\pi\sigma^2)^{-n/2} \exp\left( -\frac{1}{2\sigma^2} \sum_{i=1}^n (X_i-\mu)^2 \right) \]

1. 计算 \(\mu\) 的最优同变估计

首先计算分母 \(D = \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu\)

利用平方和分解 \(\sum_{i=1}^n (X_i-\mu)^2 = n(\mu-\bar{X})^2 + S^2\)(其中 \(\bar{X}\) 为样本均值,\(S^2=\sum (X_i-\bar{X})^2\)),内层关于 \(\mu\) 的积分是正态分布的全积分:

\[\int_{-\infty}^{+\infty} \exp\left( -\frac{n}{2\sigma^2}(\mu-\bar{X})^2 \right) \mathrm{d}\mu = \sigma \sqrt{\frac{2\pi}{n}} \]

代入分母得:

\[D = (2\pi)^{-n/2} \sqrt{\frac{2\pi}{n}} \int_{0}^{+\infty} \sigma^{-(n+2)} \exp\left( -\frac{S^2}{2\sigma^2} \right) \mathrm{d}\sigma \]

再计算分子 \(N_\mu = \int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \mu \sigma^{-3} p \mathrm{d}\mu\),内层积分是正态分布的期望乘以全积分:

\[\int_{-\infty}^{+\infty} \mu \exp\left( -\frac{n}{2\sigma^2}(\mu-\bar{X})^2 \right) \mathrm{d}\mu = \bar{X} \cdot \sigma \sqrt{\frac{2\pi}{n}} \]

因此 \(N_\mu = \bar{X} \cdot D\),最终:

\[\hat{\mu}^*(X) = \frac{N_\mu}{D} = \bar{X} \]

与之前的结论完全一致。

2. 计算 \(\sigma^2\) 的最优同变估计

根据推论2,\(\sigma^r\) 的最优同变估计可推广为:

\[\widehat{\sigma^r}^*(X) = \frac{\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{r-2} p(X;\mu,\sigma) \mathrm{d}\mu}{\int_{0}^{+\infty} \mathrm{d}\sigma \int_{-\infty}^{+\infty} \sigma^{-2} p(X;\mu,\sigma) \mathrm{d}\mu} \]

\(r=2\),代入计算可得:

\[\widehat{\sigma^2}^*(X) = \frac{S^2}{n+1} \]

与之前的结论完全一致,验证了Pitman积分公式的正确性。


五、核心知识点归纳总结表

项目 核心内容
公式名称 Pitman积分公式
适用场景 位置尺度参数分布族下,均方损失函数的最优同变估计求解
核心公式 \(\hat{\mu}^*(X) = \frac{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \mu \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}\)
\(\hat{\sigma}^*(X) = \frac{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-2} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-3} p(X;\mu,\sigma) \mathrm{d}\mu \mathrm{d}\sigma}\)
本质 位置尺度参数Jeffreys无信息先验下的贝叶斯后验期望
核心优势 通用性强、无需构造基准估计、计算流程标准化、结果全局最优
推广形式 \(\sigma^r\) 的最优同变估计:\(\widehat{\sigma^r}^*(X) = \frac{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{r-2} p \mathrm{d}\mu \mathrm{d}\sigma}{\int_{0}^{+\infty}\int_{-\infty}^{+\infty} \sigma^{-2} p \mathrm{d}\mu \mathrm{d}\sigma}\)
使用前提 积分收敛,即分母的二重积分有限

posted on 2026-02-26 09:54  Indian_Mysore  阅读(1)  评论(0)    收藏  举报

导航