昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

7.1.4正态总体参数的置信域

正态总体参数的置信域 深度讲解与完整推导

作为深耕数理统计领域多年的研究员,我将从理论基石、分场景逐步骤推导、核心性质解读、结构化总结四个维度,完整拆解正态总体参数置信区间的全部知识体系。正态分布是数理统计的核心分布,其参数估计拥有小样本下的精确置信区间(这是绝大多数分布不具备的优势),也是两总体比较、方差分析、回归分析的理论基础,所有推导均严格遵循枢轴量法的核心逻辑,无任何跳步。


前置核心理论基石

设总体 \(X \sim N(\mu, \sigma^2)\)\(X_1,X_2,\dots,X_n\) 为来自该总体的独立同分布样本,定义:

  1. 样本均值:\(\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\),是 \(\mu\) 的无偏估计;
  2. 样本离均差平方和:\(S(X) = \sum_{i=1}^n (X_i - \bar{X})^2\)
  3. 样本方差:\(\hat{\sigma}^2 = \frac{1}{n-1}S(X)\),是 \(\sigma^2\) 的无偏估计;
  4. 三大核心分布性质(所有推导的基础):
    • 性质1:\(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\),标准化后 \(\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \sim N(0,1)\)
    • 性质2:\(\frac{S(X)}{\sigma^2} = \frac{(n-1)\hat{\sigma}^2}{\sigma^2} \sim \chi^2(n-1)\)(卡方分布,自由度 \(n-1\));
    • 性质3:\(\bar{X}\)\(\hat{\sigma}^2\) 相互独立(正态分布的均值与方差独立,Cochran定理的核心结论)。

一、单样本正态总体的参数置信区间

1.1 方差\(\sigma\)未知时,均值\(\mu\)的置信区间与置信限

这是实际应用中最常用的场景(总体方差几乎不可能提前已知),核心是用t分布构造精确枢轴量。

步骤1:构造枢轴量并证明其分布

\(\sigma\) 未知时,无法使用标准正态统计量(含未知参数 \(\sigma\)),因此用样本标准差 \(\hat{\sigma}\) 替代 \(\sigma\),构造枢轴量:

\[G(X,\mu) = \frac{\sqrt{n}(\bar{X}-\mu)}{\hat{\sigma}} \]

分布严格证明
根据t分布的定义:若 \(Z \sim N(0,1)\)\(W \sim \chi^2(k)\),且 \(Z\)\(W\) 相互独立,则 \(T = \frac{Z}{\sqrt{W/k}} \sim t(k)\)(自由度为 \(k\) 的t分布)。

  • 分子:\(Z = \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \sim N(0,1)\)(性质1);
  • 分母:\(W = \frac{(n-1)\hat{\sigma}^2}{\sigma^2} \sim \chi^2(n-1)\)(性质2);
  • 独立性:\(\bar{X}\)\(\hat{\sigma}^2\) 独立,因此 \(Z\)\(W\) 相互独立(性质3)。

代入t分布定义,化简得:

\[T = \frac{\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma}}{\sqrt{\frac{(n-1)\hat{\sigma}^2}{\sigma^2}/(n-1)}} = \frac{\sqrt{n}(\bar{X}-\mu)}{\hat{\sigma}} \sim t(n-1) \]

该分布完全已知,且与未知参数 \(\mu、\sigma\) 均无关,满足枢轴量的核心要求。

步骤2:双侧置信区间的完整推导

t分布是关于0对称的分布,取等尾分位数 \(t_{1-\alpha/2} = t\left(n-1, 1-\frac{\alpha}{2}\right)\)(自由度 \(n-1\) 的t分布的 \(1-\alpha/2\) 下分位数),满足 \(t_{\alpha/2} = -t_{1-\alpha/2}\),因此:

\[P_\mu\left\{ -t_{1-\alpha/2} \leq \frac{\sqrt{n}(\bar{X}-\mu)}{\hat{\sigma}} \leq t_{1-\alpha/2} \right\} = 1-\alpha \]

对不等式做等价变形(所有变形不改变事件的概率):

  1. 三边同乘正数 \(\frac{\hat{\sigma}}{\sqrt{n}}\),不等号方向不变:

    \[-t_{1-\alpha/2} \cdot \frac{\hat{\sigma}}{\sqrt{n}} \leq \bar{X} - \mu \leq t_{1-\alpha/2} \cdot \frac{\hat{\sigma}}{\sqrt{n}} \]

  2. 三边同减 \(\bar{X}\)

    \[-\bar{X} - t_{1-\alpha/2} \cdot \frac{\hat{\sigma}}{\sqrt{n}} \leq -\mu \leq -\bar{X} + t_{1-\alpha/2} \cdot \frac{\hat{\sigma}}{\sqrt{n}} \]

  3. 三边同乘 \(-1\)不等号方向反转

    \[\bar{X} - t_{1-\alpha/2} \cdot \frac{\hat{\sigma}}{\sqrt{n}} \leq \mu \leq \bar{X} + t_{1-\alpha/2} \cdot \frac{\hat{\sigma}}{\sqrt{n}} \]

因此,\(\sigma\) 未知时,\(\mu\) 的水平为 \(1-\alpha\)精确双侧置信区间为:

\[\boldsymbol{ \left[ \bar{X} - t\left(n-1,1-\frac{\alpha}{2}\right) \cdot \frac{\hat{\sigma}}{\sqrt{n}},\ \bar{X} + t\left(n-1,1-\frac{\alpha}{2}\right) \cdot \frac{\hat{\sigma}}{\sqrt{n}} \right] } \]

步骤3:单侧置信限的推导

  • 置信下限:仅需保证 \(P_\mu(\mu \geq \underline{\mu}(X)) = 1-\alpha\),取单边分位数 \(t_{1-\alpha}=t(n-1,1-\alpha)\),满足:

    \[P_\mu\left\{ \frac{\sqrt{n}(\bar{X}-\mu)}{\hat{\sigma}} \leq t_{1-\alpha} \right\} = 1-\alpha \]

    同上述变形逻辑,反解得:

    \[\boldsymbol{ \underline{\mu}(X) = \bar{X} - t(n-1,1-\alpha) \cdot \frac{\hat{\sigma}}{\sqrt{n}} } \]

  • 置信上限:同理可得,\(\mu\) 的水平为 \(1-\alpha\) 的置信上限为:

    \[\boldsymbol{ \overline{\mu}(X) = \bar{X} + t(n-1,1-\alpha) \cdot \frac{\hat{\sigma}}{\sqrt{n}} } \]

补充说明:若 \(\sigma=\sigma_0\) 已知,直接用标准正态分布分位数 \(z_{1-\alpha/2}\) 替代t分布分位数,置信区间为 \(\left[ \bar{X} \pm z_{1-\alpha/2} \cdot \frac{\sigma_0}{\sqrt{n}} \right]\),推导逻辑完全一致。


1.2 均值\(\mu\)未知时,方差\(\sigma^2\)与标准差\(\sigma\)的置信区间

核心是利用卡方分布构造枢轴量,卡方分布为右偏分布,无对称性,因此采用等尾分位数构造区间。

步骤1:构造枢轴量并证明其分布

基于正态分布的核心性质2,构造枢轴量:

\[G(X,\sigma^2) = \frac{S(X)}{\sigma^2} = \frac{(n-1)\hat{\sigma}^2}{\sigma^2} \]

该统计量服从自由度为 \(n-1\) 的卡方分布 \(\chi^2(n-1)\),分布完全已知,与未知参数 \(\sigma^2、\mu\) 均无关,是枢轴量。

步骤2:\(\sigma^2\)的双侧置信区间推导

取卡方分布的等尾分位数:

  • 下侧分位数:\(\chi^2_{\alpha/2} = \chi^2\left(n-1, \frac{\alpha}{2}\right)\)
  • 上侧分位数:\(\chi^2_{1-\alpha/2} = \chi^2\left(n-1, 1-\frac{\alpha}{2}\right)\)

满足:

\[P_\sigma\left\{ \chi^2_{\alpha/2} \leq \frac{(n-1)\hat{\sigma}^2}{\sigma^2} \leq \chi^2_{1-\alpha/2} \right\} = 1-\alpha \]

对不等式做等价变形(所有项均为正数,乘除不改变不等号方向):

  1. 拆分不等式为左右两部分:
    • 左侧:\(\chi^2_{\alpha/2} \leq \frac{(n-1)\hat{\sigma}^2}{\sigma^2} \implies \sigma^2 \leq \frac{(n-1)\hat{\sigma}^2}{\chi^2_{\alpha/2}}\)
    • 右侧:\(\frac{(n-1)\hat{\sigma}^2}{\sigma^2} \leq \chi^2_{1-\alpha/2} \implies \sigma^2 \geq \frac{(n-1)\hat{\sigma}^2}{\chi^2_{1-\alpha/2}}\)
  2. 合并不等式,得到:

    \[\frac{(n-1)\hat{\sigma}^2}{\chi^2\left(n-1,1-\frac{\alpha}{2}\right)} \leq \sigma^2 \leq \frac{(n-1)\hat{\sigma}^2}{\chi^2\left(n-1,\frac{\alpha}{2}\right)} \]

因此,\(\mu\) 未知时,\(\sigma^2\) 的水平为 \(1-\alpha\)精确双侧置信区间为:

\[\boldsymbol{ \left[ \frac{S(X)}{\chi^2\left(n-1,1-\frac{\alpha}{2}\right)},\ \frac{S(X)}{\chi^2\left(n-1,\frac{\alpha}{2}\right)} \right] } \]

步骤3:标准差\(\sigma\)的置信区间

由于平方根函数 \(g(x)=\sqrt{x}\) 是严格单调递增函数,根据引理7.1.1,对 \(\sigma^2\) 的置信区间上下限直接开平方,即可得到 \(\sigma\) 的置信区间:

\[\boldsymbol{ \left[ \sqrt{\frac{S(X)}{\chi^2\left(n-1,1-\frac{\alpha}{2}\right)}},\ \sqrt{\frac{S(X)}{\chi^2\left(n-1,\frac{\alpha}{2}\right)}} \right] } \]

步骤4:\(\sigma^2\)的单侧置信上限推导

实际应用中,我们常关心方差的上限(如产品质量的波动上限),取单边分位数 \(\chi^2_{\alpha} = \chi^2(n-1,\alpha)\),满足:

\[P_\sigma\left\{ \chi^2_{\alpha} \leq \frac{(n-1)\hat{\sigma}^2}{\sigma^2} \right\} = 1-\alpha \]

反解不等式得:

\[\sigma^2 \leq \frac{(n-1)\hat{\sigma}^2}{\chi^2(n-1,\alpha)} \]

因此,\(\sigma^2\) 的水平为 \(1-\alpha\) 的置信上限为:

\[\boldsymbol{ \overline{\sigma^2}(X) = \frac{S(X)}{\chi^2(n-1,\alpha)} } \]

补充说明:若 \(\mu=\mu_0\) 已知,无需用样本均值估计总体均值,此时 \(\sum_{i=1}^n (X_i-\mu_0)^2/\sigma^2 \sim \chi^2(n)\)(自由度为 \(n\),而非 \(n-1\)),只需将上述公式中的自由度替换为 \(n\)\(S(X)\) 替换为 \(\sum_{i=1}^n (X_i-\mu_0)^2\) 即可。


二、两独立正态总体的参数置信区间

\(X_1,X_2,\dots,X_n \sim N(\mu_1, \sigma_1^2)\)\(Y_1,Y_2,\dots,Y_m \sim N(\mu_2, \sigma_2^2)\),两总体相互独立,定义:

  • 样本均值:\(\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i\)\(\bar{Y} = \frac{1}{m}\sum_{j=1}^m Y_j\)
  • 样本离均差平方和:\(S_X = \sum_{i=1}^n (X_i-\bar{X})^2\)\(S_Y = \sum_{j=1}^m (Y_j-\bar{Y})^2\)
  • 样本方差:\(\hat{\sigma}_1^2 = \frac{S_X}{n-1}\)\(\hat{\sigma}_2^2 = \frac{S_Y}{m-1}\)

2.1 两总体方差相等(\(\sigma_1^2=\sigma_2^2=\sigma^2\))时,均值差\(\delta=\mu_1-\mu_2\)的置信区间

这是两总体均值比较的经典场景,核心是合并方差t区间,构造精确枢轴量。

步骤1:构造枢轴量并证明其分布

  1. 均值差的分布:\(\bar{X} \sim N(\mu_1, \sigma^2/n)\)\(\bar{Y} \sim N(\mu_2, \sigma^2/m)\),且独立,因此:

    \[\bar{X}-\bar{Y} \sim N\left( \mu_1-\mu_2,\ \sigma^2\left( \frac{1}{n} + \frac{1}{m} \right) \right) \]

    标准化后:

    \[Z = \frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n}+\frac{1}{m}}} \sim N(0,1) \]

  2. 合并方差的分布:由卡方分布的可加性,\(\frac{S_X}{\sigma^2} \sim \chi^2(n-1)\)\(\frac{S_Y}{\sigma^2} \sim \chi^2(m-1)\),且独立,因此:

    \[W = \frac{S_X + S_Y}{\sigma^2} \sim \chi^2(n+m-2) \]

  3. 合并方差估计:定义合并无偏方差

    \[\hat{\sigma}^2 = \frac{S_X + S_Y}{n+m-2} \]

    满足 \(E[\hat{\sigma}^2] = \sigma^2\),是共同方差 \(\sigma^2\) 的无偏估计。

  4. 枢轴量构造:代入t分布定义,\(Z\)\(W\) 独立,因此:

    \[G = \frac{Z}{\sqrt{W/(n+m-2)}} = \frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{\hat{\sigma}\sqrt{\frac{1}{n}+\frac{1}{m}}} \sim t(n+m-2) \]

    分布与未知参数无关,是精确枢轴量。

步骤2:置信区间推导

取分位数 \(t_{1-\alpha/2}=t(n+m-2,1-\alpha/2)\),满足:

\[P\left\{ -t_{1-\alpha/2} \leq \frac{(\bar{X}-\bar{Y}) - \delta}{\hat{\sigma}\sqrt{\frac{1}{n}+\frac{1}{m}}} \leq t_{1-\alpha/2} \right\} = 1-\alpha \]

反解不等式,得到 \(\delta=\mu_1-\mu_2\) 的水平为 \(1-\alpha\)精确双侧置信区间

\[\boldsymbol{ \left[ (\bar{X}-\bar{Y}) - t\left(n+m-2,1-\frac{\alpha}{2}\right) \cdot \hat{\sigma}\sqrt{\frac{1}{n}+\frac{1}{m}},\ (\bar{X}-\bar{Y}) + t\left(n+m-2,1-\frac{\alpha}{2}\right) \cdot \hat{\sigma}\sqrt{\frac{1}{n}+\frac{1}{m}} \right] } \]


2.2 两总体方差不等时,均值差\(\delta=\mu_1-\mu_2\)的大样本近似置信区间

\(\sigma_1^2 \neq \sigma_2^2\) 时,小样本下不存在精确枢轴量(该问题称为Behrens-Fisher问题),因此采用大样本渐近正态方法

步骤1:构造渐近枢轴量

由中心极限定理,大样本下:

\[\frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}}} \stackrel{L}{\rightarrow} N(0,1) \]

用样本方差 \(\hat{\sigma}_1^2、\hat{\sigma}_2^2\) 分别代替总体方差 \(\sigma_1^2、\sigma_2^2\),根据Slutsky定理,相合估计替代不改变极限分布,因此得到渐近枢轴量:

\[G = \frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{\sqrt{\frac{\hat{\sigma}_1^2}{n} + \frac{\hat{\sigma}_2^2}{m}}} \stackrel{L}{\rightarrow} N(0,1) \]

步骤2:渐近置信区间推导

取标准正态分位数 \(z_{1-\alpha/2}\),大样本下近似有:

\[P\left\{ \left| \frac{(\bar{X}-\bar{Y}) - \delta}{\sqrt{\frac{\hat{\sigma}_1^2}{n} + \frac{\hat{\sigma}_2^2}{m}}} \right| \leq z_{1-\alpha/2} \right\} \approx 1-\alpha \]

反解得到 \(\delta=\mu_1-\mu_2\) 的水平为 \(1-\alpha\)渐近置信区间

\[\boldsymbol{ \left[ (\bar{X}-\bar{Y}) - z_{1-\alpha/2} \cdot \sqrt{\frac{\hat{\sigma}_1^2}{n} + \frac{\hat{\sigma}_2^2}{m}},\ (\bar{X}-\bar{Y}) + z_{1-\alpha/2} \cdot \sqrt{\frac{\hat{\sigma}_1^2}{n} + \frac{\hat{\sigma}_2^2}{m}} \right] } \]


2.3 两总体方差比\(\rho=\frac{\sigma_2^2}{\sigma_1^2}\)的置信区间

方差比的估计是两总体方差齐性检验的核心,利用F分布构造精确枢轴量。

步骤1:构造枢轴量并证明其分布

F分布的定义:若 \(U \sim \chi^2(k_1)\)\(V \sim \chi^2(k_2)\),且独立,则 \(F = \frac{U/k_1}{V/k_2} \sim F(k_1,k_2)\)(第一自由度 \(k_1\),第二自由度 \(k_2\) 的F分布)。

由正态分布性质:

  • \(\frac{(n-1)\hat{\sigma}_1^2}{\sigma_1^2} \sim \chi^2(n-1)\)\(\frac{(m-1)\hat{\sigma}_2^2}{\sigma_2^2} \sim \chi^2(m-1)\),且相互独立。

代入F分布定义,构造枢轴量:

\[G(X,Y;\rho) = \frac{\frac{(m-1)\hat{\sigma}_2^2}{\sigma_2^2}/(m-1)}{\frac{(n-1)\hat{\sigma}_1^2}{\sigma_1^2}/(n-1)} = \frac{\hat{\sigma}_2^2/\sigma_2^2}{\hat{\sigma}_1^2/\sigma_1^2} = \frac{\hat{\sigma}_2^2}{\hat{\sigma}_1^2 \cdot \rho} \]

该统计量服从 \(F(m-1, n-1)\) 分布,与未知参数 \(\rho\) 无关,是精确枢轴量。

步骤2:置信区间推导

取F分布的等尾分位数:

  • 下侧分位数:\(F_{\alpha/2} = F\left(m-1,n-1,\frac{\alpha}{2}\right)\)
  • 上侧分位数:\(F_{1-\alpha/2} = F\left(m-1,n-1,1-\frac{\alpha}{2}\right)\)

满足:

\[P\left\{ F_{\alpha/2} \leq \frac{\hat{\sigma}_2^2}{\hat{\sigma}_1^2 \cdot \rho} \leq F_{1-\alpha/2} \right\} = 1-\alpha \]

对不等式做等价变形(所有项均为正数):

  1. 左侧不等式:\(F_{\alpha/2} \leq \frac{\hat{\sigma}_2^2}{\hat{\sigma}_1^2 \cdot \rho} \implies \rho \leq \frac{\hat{\sigma}_2^2}{\hat{\sigma}_1^2 \cdot F_{\alpha/2}}\)
  2. 右侧不等式:\(\frac{\hat{\sigma}_2^2}{\hat{\sigma}_1^2 \cdot \rho} \leq F_{1-\alpha/2} \implies \rho \geq \frac{\hat{\sigma}_2^2}{\hat{\sigma}_1^2 \cdot F_{1-\alpha/2}}\)

因此,方差比 \(\rho=\sigma_2^2/\sigma_1^2\) 的水平为 \(1-\alpha\)精确置信区间为:

\[\boldsymbol{ \left[ \frac{\hat{\sigma}_2^2}{\hat{\sigma}_1^2 \cdot F\left(m-1,n-1,1-\frac{\alpha}{2}\right)},\ \frac{\hat{\sigma}_2^2}{\hat{\sigma}_1^2 \cdot F\left(m-1,n-1,\frac{\alpha}{2}\right)} \right] } \]

实用补充:F分布的分位数性质 \(F(\alpha, k_1, k_2) = \frac{1}{F(1-\alpha, k_2, k_1)}\),可通过常用的上侧分位数计算下侧分位数,避免查表缺失。


三、全知识点结构化归纳总结

表1 单样本正态总体参数置信区间汇总

待估参数 约束条件 枢轴量 枢轴量分布 置信水平\(1-\alpha\)的置信区间
均值\(\mu\) \(\sigma=\sigma_0\)已知 \(\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma_0}\) \(N(0,1)\) \(\left[ \bar{X} \pm z_{1-\alpha/2} \cdot \frac{\sigma_0}{\sqrt{n}} \right]\)
均值\(\mu\) \(\sigma\)未知 \(\frac{\sqrt{n}(\bar{X}-\mu)}{\hat{\sigma}}\) \(t(n-1)\) \(\left[ \bar{X} \pm t\left(n-1,1-\frac{\alpha}{2}\right) \cdot \frac{\hat{\sigma}}{\sqrt{n}} \right]\)
方差\(\sigma^2\) \(\mu\)未知 \(\frac{(n-1)\hat{\sigma}^2}{\sigma^2}\) \(\chi^2(n-1)\) \(\left[ \frac{(n-1)\hat{\sigma}^2}{\chi^2\left(n-1,1-\frac{\alpha}{2}\right)},\ \frac{(n-1)\hat{\sigma}^2}{\chi^2\left(n-1,\frac{\alpha}{2}\right)} \right]\)
标准差\(\sigma\) \(\mu\)未知 \(\frac{(n-1)\hat{\sigma}^2}{\sigma^2}\) \(\chi^2(n-1)\) \(\left[ \sqrt{\frac{(n-1)\hat{\sigma}^2}{\chi^2\left(n-1,1-\frac{\alpha}{2}\right)}},\ \sqrt{\frac{(n-1)\hat{\sigma}^2}{\chi^2\left(n-1,\frac{\alpha}{2}\right)}} \right]\)
方差\(\sigma^2\) \(\mu=\mu_0\)已知 \(\frac{\sum_{i=1}^n (X_i-\mu_0)^2}{\sigma^2}\) \(\chi^2(n)\) \(\left[ \frac{\sum (X_i-\mu_0)^2}{\chi^2\left(n,1-\frac{\alpha}{2}\right)},\ \frac{\sum (X_i-\mu_0)^2}{\chi^2\left(n,\frac{\alpha}{2}\right)} \right]\)

表2 两独立正态总体参数置信区间汇总

待估参数 约束条件 枢轴量 枢轴量分布 置信水平\(1-\alpha\)的置信区间
均值差\(\mu_1-\mu_2\) \(\sigma_1^2=\sigma_2^2=\sigma^2\)未知 \(\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\hat{\sigma}\sqrt{\frac{1}{n}+\frac{1}{m}}}\) \(t(n+m-2)\) \(\left[ (\bar{X}-\bar{Y}) \pm t\left(n+m-2,1-\frac{\alpha}{2}\right) \cdot \hat{\sigma}\sqrt{\frac{1}{n}+\frac{1}{m}} \right]\)
均值差\(\mu_1-\mu_2\) \(\sigma_1^2 \neq \sigma_2^2\),大样本 \(\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\hat{\sigma}_1^2}{n}+\frac{\hat{\sigma}_2^2}{m}}}\) 渐近\(N(0,1)\) \(\left[ (\bar{X}-\bar{Y}) \pm z_{1-\alpha/2} \cdot \sqrt{\frac{\hat{\sigma}_1^2}{n}+\frac{\hat{\sigma}_2^2}{m}} \right]\)
方差比\(\sigma_2^2/\sigma_1^2\) \(\mu_1,\mu_2\)未知 \(\frac{\hat{\sigma}_2^2/\sigma_2^2}{\hat{\sigma}_1^2/\sigma_1^2}\) \(F(m-1,n-1)\) \(\left[ \frac{\hat{\sigma}_2^2}{\hat{\sigma}_1^2 \cdot F_{1-\alpha/2}},\ \frac{\hat{\sigma}_2^2}{\hat{\sigma}_1^2 \cdot F_{\alpha/2}} \right]\)

表3 核心注意事项与误区澄清

场景 核心注意事项 常见误区澄清
t分布区间 自由度为\(n-1\),而非\(n\) 误区:用\(n\)作为自由度;纠正:估计了均值\(\mu\),损失1个自由度,因此自由度为\(n-1\)
卡方分布区间 下限用\(1-\alpha/2\)分位数,上限用\(\alpha/2\)分位数 误区:上下限分位数写反;纠正:卡方分布是右偏分布,分位数越大,对应\(\sigma^2\)的区间下限越小
合并方差t区间 仅适用于两总体方差相等的场景 误区:方差不等时仍用合并方差;纠正:方差不等时大样本用正态近似,小样本用Satterthwaite近似自由度
方差比区间 F分布自由度顺序为\((m-1,n-1)\),不可颠倒 误区:自由度顺序写反;纠正:分子是\(\hat{\sigma}_2^2\),对应自由度\(m-1\);分母是\(\hat{\sigma}_1^2\),对应自由度\(n-1\)
精确vs近似区间 单样本、方差相等的两样本区间是精确区间,方差不等的是渐近区间 误区:大样本近似区间用于小样本;纠正:近似区间仅在样本量足够大(\(n,m>30\))时覆盖概率接近名义水平

正态总体参数置信区间例题 完整推导与深度讲解

以下将对5道例题按适用场景→公式推导→逐步骤计算→结果解读的逻辑完整拆解,所有计算无跳步,同时澄清易混淆的核心细节,帮助你彻底掌握正态总体置信区间的应用方法。


例7.1.14 单正态总体(均值已知)方差的置信区间

适用场景

总体服从正态分布 \(N(\mu_0, \sigma^2)\)均值\(\mu=\mu_0\)已知,仅需估计方差\(\sigma^2\)(或标准差\(\sigma\)),属于单样本正态总体参数估计的特殊场景。

核心公式推导

当均值\(\mu_0\)已知时,无需用样本均值估计总体均值,因此构造的枢轴量自由度为\(n\)(而非\(n-1\)):

  1. 定义离均差平方和:\(T(X) = \sum_{i=1}^n (X_i - \mu_0)^2\)
  2. 枢轴量构造:由正态分布性质,\(\frac{X_i - \mu_0}{\sigma} \sim N(0,1)\),独立标准正态变量的平方和服从卡方分布,因此:

    \[G(X,\sigma^2) = \frac{T(X)}{\sigma^2} = \sum_{i=1}^n \left( \frac{X_i - \mu_0}{\sigma} \right)^2 \sim \chi^2(n) \]

    该分布与未知参数\(\sigma^2\)无关,是精确枢轴量。
  3. 置信区间推导:取卡方分布等尾分位数\(\chi^2_{\alpha/2}(n)\)\(\chi^2_{1-\alpha/2}(n)\),满足:

    \[P\left\{ \chi^2_{\alpha/2}(n) \leq \frac{T(X)}{\sigma^2} \leq \chi^2_{1-\alpha/2}(n) \right\} = 1-\alpha \]

    对不等式做等价变形(所有项为正数,乘除不改变不等号方向),得到\(\sigma^2\)\(1-\alpha\)置信区间:

    \[\boldsymbol{ \left[ \frac{T(X)}{\chi^2_{1-\alpha/2}(n)},\ \frac{T(X)}{\chi^2_{\alpha/2}(n)} \right] } \]

    标准差\(\sigma\)的置信区间为上下限直接开平方。

逐步骤计算与结果解读

已知条件

  • 总体:\(N(30, \sigma^2)\),已知\(\mu_0=30\),样本量\(n=6\)
  • 样本测量值:30.1, 29.9, 29.8, 30.3, 30.2, 29.6
  • 置信水平\(1-\alpha=0.95\)\(\alpha=0.05\)

步骤1:计算离均差平方和\(T(X)\)

每个样本值与已知均值30的偏差平方和:

\[\begin{align*} (30.1-30)^2 &= 0.1^2 = 0.01 \\ (29.9-30)^2 &= (-0.1)^2 = 0.01 \\ (29.8-30)^2 &= (-0.2)^2 = 0.04 \\ (30.3-30)^2 &= 0.3^2 = 0.09 \\ (30.2-30)^2 &= 0.2^2 = 0.04 \\ (29.6-30)^2 &= (-0.4)^2 = 0.16 \\ \end{align*} \]

求和得:\(T(X) = 0.01+0.01+0.04+0.09+0.04+0.16 = \boldsymbol{0.35}\)

步骤2:方差与标准差的点估计

正态分布均值已知时,方差\(\sigma^2\)的极大似然估计(无偏)为:

\[\hat{\sigma}^2 = \frac{T(X)}{n} = \frac{0.35}{6} \approx \boldsymbol{0.058} \]

标准差点估计:\(\hat{\sigma} = \sqrt{0.058} \approx \boldsymbol{0.24}\)

步骤3:确定卡方分布分位数

自由度\(n=6\),查卡方分布表得:

  • 上侧分位数:\(\chi^2_{0.975}(6) = 14.4494\)
  • 下侧分位数:\(\chi^2_{0.025}(6) = 1.2373\)

步骤4:计算置信区间

  • 方差\(\sigma^2\)的95%置信区间:

    \[\text{下限} = \frac{0.35}{14.4494} \approx 0.0242, \quad \text{上限} = \frac{0.35}{1.2373} \approx 0.2829 \]

    \(\boldsymbol{[0.0242, 0.2829]}\)
  • 标准差\(\sigma\)的95%置信区间:对上下限开平方

    \[\text{下限} = \sqrt{0.0242} \approx 0.16, \quad \text{上限} = \sqrt{0.2829} \approx 0.53 \]

    \(\boldsymbol{[0.16, 0.53]}\)

结果解读

标准差的点估计0.24落在95%置信区间\([0.16,0.53]\)内,结果合理;该区间给出了测量仪精度的波动范围,95%的置信水平下,测量值的标准差不超过0.53mm。


例7.1.15 单正态总体(均值方差均未知)的置信区间

适用场景

总体服从正态分布 \(N(\mu, \sigma^2)\)均值\(\mu\)和方差\(\sigma^2\)均未知,是实际应用中最常见的单样本正态估计场景,均值用t分布构造区间,方差用卡方分布构造区间。


逐步骤计算与结果解读

已知条件

  • 总体:\(N(\mu, \sigma^2)\)\(\mu、\sigma^2\)均未知,样本量\(n=10\)
  • 样本测量值(单位:kg):10.1, 10, 9.8, 10.5, 9.7, 10.1, 9.9, 10.2, 10.3, 9.9
  • 置信水平\(1-\alpha=0.95\)\(\alpha=0.05\)

步骤1:计算样本统计量

  1. 样本均值:

    \[\bar{x} = \frac{1}{10}(10.1+10+9.8+10.5+9.7+10.1+9.9+10.2+10.3+9.9) = \frac{100.5}{10} = \boldsymbol{10.05} \]

  2. 样本离均差平方和:每个样本值与均值10.05的偏差平方和

    \[S(x) = \sum_{i=1}^{10} (x_i - \bar{x})^2 = \boldsymbol{0.525} \]

  3. 样本方差(无偏):

    \[\hat{\sigma}^2 = \frac{S(x)}{n-1} = \frac{0.525}{9} \approx \boldsymbol{0.0583} \]

    样本标准差:\(\hat{\sigma} = \sqrt{0.0583} \approx 0.24\)

步骤2:均值\(\mu\)的95%置信区间

方差未知时,均值的置信区间用t分布构造,枢轴量为\(\frac{\sqrt{n}(\bar{X}-\mu)}{\hat{\sigma}} \sim t(n-1)\),区间公式为:

\[\left[ \bar{x} - t_{1-\alpha/2}(n-1) \cdot \frac{\hat{\sigma}}{\sqrt{n}},\ \bar{x} + t_{1-\alpha/2}(n-1) \cdot \frac{\hat{\sigma}}{\sqrt{n}} \right] \]

  1. 确定分位数:自由度\(n-1=9\),查t分布表得\(t_{0.975}(9)=2.2622\)
  2. 计算边际误差:\(2.2622 \times \frac{0.24}{\sqrt{10}} \approx 0.18\)
  3. 区间上下限:\(10.05 - 0.18 = 9.87\)\(10.05 + 0.18 = 10.22\)

因此,均值\(\mu\)的95%置信区间为\(\boldsymbol{[9.87, 10.22]}\)

步骤3:方差\(\sigma^2\)的95%置信区间

方差的置信区间用卡方分布构造,枢轴量为\(\frac{(n-1)\hat{\sigma}^2}{\sigma^2} \sim \chi^2(n-1)\),区间公式为:

\[\left[ \frac{S(x)}{\chi^2_{1-\alpha/2}(n-1)},\ \frac{S(x)}{\chi^2_{\alpha/2}(n-1)} \right] \]

  1. 确定分位数:自由度\(n-1=9\),查卡方分布表得\(\chi^2_{0.975}(9)=19.023\)\(\chi^2_{0.025}(9)=2.70\)
  2. 区间上下限:\(\frac{0.525}{19.023} \approx 0.028\)\(\frac{0.525}{2.70} \approx 0.194\)

因此,方差\(\sigma^2\)的95%置信区间为\(\boldsymbol{[0.028, 0.194]}\)

结果解读

95%置信水平下,器件质量的均值在9.87kg到10.22kg之间,方差不超过0.194,测量结果的波动在合理范围内。


例7.1.16 两正态总体(方差相等)均值差的置信区间

适用场景

两个独立正态总体,方差相等但未知,需估计两总体均值之差\(\delta=\mu_1-\mu_2\),属于两样本均值比较的经典场景,用合并方差t区间构造精确置信区间。

核心公式

两总体方差相等时,构造合并方差估计:

\[\hat{\sigma}^2 = \frac{S_X + S_Y}{n+m-2}, \quad S_X=\sum_{i=1}^n (X_i-\bar{X})^2,\ S_Y=\sum_{j=1}^m (Y_j-\bar{Y})^2 \]

枢轴量为:

\[\frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{\hat{\sigma}\sqrt{\frac{1}{n}+\frac{1}{m}}} \sim t(n+m-2) \]

均值差\(\delta=\mu_1-\mu_2\)\(1-\alpha\)置信区间为:

\[\boldsymbol{ \left[ (\bar{x}-\bar{y}) - t_{1-\alpha/2}(n+m-2) \cdot \hat{\sigma}\sqrt{\frac{1}{n}+\frac{1}{m}},\ (\bar{x}-\bar{y}) + t_{1-\alpha/2}(n+m-2) \cdot \hat{\sigma}\sqrt{\frac{1}{n}+\frac{1}{m}} \right] } \]


逐步骤计算与结果解读

已知条件

  • 甲品种(总体1):\(N(\mu_1, \sigma^2)\),样本量\(n=8\),样本值:628, 583, 510, 554, 612, 523, 530, 615
  • 乙品种(总体2):\(N(\mu_2, \sigma^2)\),样本量\(m=10\),样本值:535, 433, 398, 470, 567, 480, 498, 560, 503, 426
  • 两总体独立、方差相等,置信水平\(1-\alpha=0.95\)

步骤1:计算样本统计量

  1. 样本均值:
    • 甲品种:\(\bar{x} = \frac{628+583+510+554+612+523+530+615}{8} = \boldsymbol{569.38}\)
    • 乙品种:\(\bar{y} = \frac{535+433+398+470+567+480+498+560+503+426}{10} = \boldsymbol{487.00}\)
    • 均值差:\(\bar{x}-\bar{y} = 569.38 - 487.00 = \boldsymbol{82.38}\)
  2. 离均差平方和:\(S_{xy} = S_X + S_Y = \boldsymbol{210.45}\)(合并平方和)
  3. 自由度:\(n+m-2 = 8+10-2 = 16\)

步骤2:确定分位数与计算区间

  1. 分位数:查t分布表得\(t_{0.975}(16) = 2.1199\)
  2. 标准误:\(\hat{\sigma}\sqrt{\frac{1}{n}+\frac{1}{m}} = \sqrt{\frac{S_{xy}}{n+m-2}} \times \sqrt{\frac{1}{8}+\frac{1}{10}} \approx 24.97\)
  3. 边际误差:\(2.1199 \times 24.97 \approx 52.92\)
  4. 区间上下限:\(82.38 - 52.92 = 29.46\)\(82.38 + 52.92 = 135.30\)

因此,均值差\(\mu_1-\mu_2\)的95%置信区间为\(\boldsymbol{[29.46, 135.30]}\)

结果解读

置信区间的上下限均大于0,说明在95%的置信水平下,甲品种的平均产量显著高于乙品种,甲品种更具种植优势。


例7.1.17 两正态总体(方差不等、大样本)均值差的置信区间

适用场景

两个独立正态总体,方差不等且未知,但样本量足够大(\(n,m>30\)),利用中心极限定理构造渐近正态置信区间,属于Behrens-Fisher问题的大样本近似解法。

核心公式

大样本下,由Slutsky定理,用样本方差替代总体方差,渐近枢轴量为:

\[\frac{(\bar{X}-\bar{Y}) - (\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n} + \frac{S_2^2}{m}}} \stackrel{L}{\rightarrow} N(0,1) \]

均值差\(\delta=\mu_1-\mu_2\)\(1-\alpha\)渐近置信区间为:

\[\boldsymbol{ \left[ (\bar{x}-\bar{y}) - z_{1-\alpha/2} \cdot \sqrt{\frac{S_1^2}{n} + \frac{S_2^2}{m}},\ (\bar{x}-\bar{y}) + z_{1-\alpha/2} \cdot \sqrt{\frac{S_1^2}{n} + \frac{S_2^2}{m}} \right] } \]


逐步骤计算与结果解读

已知条件

  • 男性(总体1):\(N(\mu_1, \sigma_1^2)\),样本量\(n=156\),样本均值\(\bar{x}=465.13\),样本方差\(S_1^2=54.80\)
  • 女性(总体2):\(N(\mu_2, \sigma_2^2)\),样本量\(m=74\),样本均值\(\bar{y}=422.16\),样本方差\(S_2^2=49.20\)
  • 两总体独立,置信水平\(1-\alpha=0.95\)

步骤1:计算核心统计量

  1. 均值差:\(\bar{x}-\bar{y} = 465.13 - 422.16 = \boldsymbol{42.97}\)
  2. 标准误:

    \[\tilde{\sigma} = \sqrt{\frac{S_1^2}{n} + \frac{S_2^2}{m}} = \sqrt{\frac{54.80}{156} + \frac{49.20}{74}} \approx \boldsymbol{7.21} \]

步骤2:确定分位数与计算区间

  1. 标准正态分位数:\(z_{0.975}=1.96\)
  2. 边际误差:\(1.96 \times 7.21 \approx 14.13\)
  3. 区间上下限:\(42.97 - 14.13 = 28.84\)\(42.97 + 14.13 = 57.10\)

因此,均值差\(\mu_1-\mu_2\)的95%渐近置信区间为\(\boldsymbol{[28.84, 57.10]}\)

结果解读

置信区间上下限均大于0,说明在95%的置信水平下,该地区男性红细胞平均值显著高于女性,与假设检验结论一致。


例7.1.18 两正态总体方差比的置信区间

适用场景

两个独立正态总体,需估计方差比\(\rho=\frac{\sigma_2^2}{\sigma_1^2}\),是方差齐性检验的核心方法,利用F分布构造精确置信区间。

核心公式推导

设两总体样本方差(无偏)为\(\tilde{\sigma}_1^2 = \frac{S_X}{n-1}\)\(\tilde{\sigma}_2^2 = \frac{S_Y}{m-1}\),由卡方分布性质:

\[\frac{(n-1)\tilde{\sigma}_1^2}{\sigma_1^2} \sim \chi^2(n-1), \quad \frac{(m-1)\tilde{\sigma}_2^2}{\sigma_2^2} \sim \chi^2(m-1) \]

二者独立,由F分布定义,构造枢轴量:

\[G = \frac{\frac{(m-1)\tilde{\sigma}_2^2}{\sigma_2^2}/(m-1)}{\frac{(n-1)\tilde{\sigma}_1^2}{\sigma_1^2}/(n-1)} = \frac{\tilde{\sigma}_2^2 / \sigma_2^2}{\tilde{\sigma}_1^2 / \sigma_1^2} \sim F(m-1, n-1) \]

取F分布等尾分位数,反解得到方差比\(\rho=\frac{\sigma_2^2}{\sigma_1^2}\)\(1-\alpha\)置信区间:

\[\boldsymbol{ \left[ \frac{\tilde{\sigma}_2^2}{\tilde{\sigma}_1^2 \cdot F_{1-\alpha/2}(m-1,n-1)},\ \frac{\tilde{\sigma}_2^2}{\tilde{\sigma}_1^2 \cdot F_{\alpha/2}(m-1,n-1)} \right] } \]


逐步骤计算与结果解读

已知条件

  • 甲机床(总体1):\(N(\mu_1, \sigma_1^2)\),样本量\(n=6\),样本值:4.98, 5.03, 4.97, 4.99, 5.02, 4.95
  • 乙机床(总体2):\(N(\mu_2, \sigma_2^2)\),样本量\(m=5\),样本值:5.06, 5.08, 5.03, 5.00, 5.07
  • 两总体独立,置信水平\(1-\alpha=0.95\)

步骤1:计算样本统计量

  1. 样本均值:
    • 甲机床:\(\bar{x} = \frac{4.98+5.03+4.97+4.99+5.02+4.95}{6} = \boldsymbol{4.990}\)
    • 乙机床:\(\bar{y} = \frac{5.06+5.08+5.03+5.00+5.07}{5} = \boldsymbol{5.048}\)
  2. 样本方差(无偏):
    • 甲机床:\(\tilde{\sigma}_1^2 = \frac{\sum_{i=1}^6 (x_i-\bar{x})^2}{6-1} = \boldsymbol{0.00092}\)
    • 乙机床:\(\tilde{\sigma}_2^2 = \frac{\sum_{j=1}^5 (y_j-\bar{y})^2}{5-1} = \boldsymbol{0.00037}\)
  3. 方差比:\(\frac{\tilde{\sigma}_2^2}{\tilde{\sigma}_1^2} = \frac{0.00037}{0.00092} \approx 0.4022\)

步骤2:确定F分布分位数

自由度为\((m-1, n-1)=(4,5)\),查F分布表得:

  • 上侧分位数:\(F_{0.975}(4,5) = 7.39\)
  • 下侧分位数:\(F_{0.025}(4,5) = \frac{1}{F_{0.975}(5,4)} = 0.1068\)

步骤3:计算置信区间

  • 下限:\(\frac{0.4022}{7.39} \approx 0.0544\)
  • 上限:\(\frac{0.4022}{0.1068} \approx 3.7667\)

因此,方差比\(\rho=\sigma_2^2/\sigma_1^2\)的95%置信区间为\(\boldsymbol{[0.0544, 3.7667]}\)

结果解读

置信区间包含1,说明在95%的置信水平下,无法认为两台机床加工的零件直径方差存在显著差异,两台机床的加工精度一致。


全例题核心信息汇总表

例题编号 待估参数 总体场景 约束条件 枢轴量分布 95%置信区间核心结果
7.1.14 方差\(\sigma^2\)、标准差\(\sigma\) 单正态总体 均值\(\mu_0=30\)已知 \(\chi^2(n=6)\) \(\sigma^2\)\([0.0242, 0.2829]\)
\(\sigma\)\([0.16, 0.53]\)
7.1.15 均值\(\mu\)、方差\(\sigma^2\) 单正态总体 均值、方差均未知 \(\mu\)\(t(n-1=9)\)
\(\sigma^2\)\(\chi^2(n-1=9)\)
\(\mu\)\([9.87, 10.22]\)
\(\sigma^2\)\([0.028, 0.194]\)
7.1.16 均值差\(\mu_1-\mu_2\) 两独立正态总体 方差相等未知 \(t(n+m-2=16)\) \([29.46, 135.30]\)
7.1.17 均值差\(\mu_1-\mu_2\) 两独立正态总体 方差不等、大样本 渐近\(N(0,1)\) \([28.84, 57.10]\)
7.1.18 方差比\(\sigma_2^2/\sigma_1^2\) 两独立正态总体 均值、方差均未知 \(F(m-1=4, n-1=5)\) \([0.0544, 3.7667]\)

posted on 2026-02-27 19:21  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航