三大分布
三大分布
0.简介
卡方分布 $ \chi^2$分布
- 统计量的构造:
- 抽样分布密度函数:
- 期望:
- 方差:
F分布
- 统计量的构造:
- 抽样分布密度函数:
- 期望:
- 方差:
t分布
- 统计量的构造:
- 抽样分布密度函数:
- 期望:
- 方差:
1.卡方分布 $ \chi^2$分布
1.1 卡方分布定义
如果 $ X_1, X_2, \ldots, X_n $ 是 $ n $ 个独立同分布的标准正态随机变量(即每个 $ X_i $ 都服从 $ N(0,1) $),则它们的平方和 $ \chi^2 = X_1^2 + X_2^2 + \ldots + X_n^2 $ 服从自由度为 $ n $ 的卡方分布,记为 $ \chi^2(n) $。
卡方分布与伽马分布的关系
如果随机变量 $ X $ 服从标准正态分布 $ N(0,1) $,则 $ X^2 $ 服从伽马分布 \(\ Ga(1/2, 1/2)\) 。根据伽马分布的可加性,$ X^2 $ 服从 $ Ga(n/2, 1/2) $,这表明 $ \chi^2(n) $ 分布是伽马分布的一个特例。
1.2 卡方分布的密度函数
卡方分布的概率密度函数(PDF)为:
其中,$ \Gamma(n/2) $ 是伽马函数,$ (1/2)^{n/2} $ 是归一化因子,确保积分为1。
卡方分布的性质
- 期望:$ E(\chi^2(n)) = n $,表示卡方分布的期望等于自由度 $ n $。
- 方差:$ Var(\chi^2(n)) = 2n $,表示卡方分布的方差是自由度的两倍。
1.3 图像特征
卡方分布的图像是一个偏态分布,只取非负值。其形状取决于自由度 $ n $,较大的 $ n $ 值会使分布更接近正态分布。
1.4 有用的定理
定理
设 \(x_1, x_2, \cdots, x_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的样本,其样本均值和样本方差分别为
\(\bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_i \quad \text{和} \quad s^2 = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_i - \bar{x})^2\)
则有:
- \(\bar{x}\)与\(s^2\)相互独立;
- \(\bar{x} \sim N(\mu, \frac{\sigma^2}{n})\);
- \((n-1)s^2 \sim \chi^2(n-1)\)。
解释:
-
\(\bar{x}\) 与 \(s^2\) 相互独立:
- 在正态分布的条件下,样本均值 \(\bar{x}\) 和样本方差 \(s^2\) 是两个独立的统计量。这意味着,知道 \(\bar{x}\) 的值不会影响 \(s^2\) 的分布,反之亦然。这一性质在进行统计推断时非常有用。
-
\(\bar{x} \sim N(\mu, \sigma^2 / n)\):
- 样本均值 \(\bar{x}\) 本身也服从正态分布,其均值等于总体均值 \(\mu\),方差等于总体方差 \(\sigma^2\) 除以样本量 \(n\)。这一性质说明了样本均值作为总体均值的估计量的精确性,随着样本量的增加,样本均值的方差减小,估计更加精确。
-
\(\frac{(n - 1)s^2}{\sigma^2} \sim \chi^2 (n - 1)\):
- 样本方差 \(s^2\) 经过标准化后,即乘以 \(\frac{n - 1}{\sigma^2}\),服从自由度为 \(n - 1\) 的卡方分布。这一性质在进行方差分析、假设检验等统计过程中非常重要,因为它提供了样本方差与总体方差之间关系的数学描述。
描述了正态总体样本均值和样本方差的重要性质,包括它们的独立性、样本均值的分布以及样本方差的分布。这些性质在数理统计和实际应用中具有广泛的应用价值,特别是在进行假设检验、置信区间估计和方差分析等统计推断时。
证明
\((x_1, x_2, \cdots, x_n)\) 的联合密度函数为
记 \(X = (x_1, x_2, \cdots, x_n)^T\),取一个 \(n\) 维正交矩阵 \(A\),其第一行的每一个元素均为 \(1/\sqrt{n}\),如下:
令 \(Y = (y_1, y_2, \cdots, y_n)^T = AX\),则该线性变换的雅可比(Jacobi)行列式为1(因为 \(A\) 是正交矩阵,所以其行列式的绝对值为1,且在此变换中保持符号不变,即为1)。
注意到 \(\sum_{i = 1}^{n} y_i^2 = Y^TY = X^TA^TAX = \sum_{i = 1}^{n} x_i^2\),于是 \(y_1, y_2, \cdots, y_n\) 的联合密度函数为:
\(p(y_1, y_2, \cdots, y_n) = (2\pi\sigma^2)^{-\frac{n}{2}} \exp\left\{-\frac{1}{2\sigma^2} \left(\sum_{i = 1}^{n} y_i^2 - 2\sqrt{n}y_1\mu + n\mu^2\right)\right\}\)
\(= (2\pi\sigma^2)^{-\frac{n}{2}} \exp\left\{-\frac{1}{2\sigma^2} \left[\left(\sum_{i = 1}^{n} y_i^2\right) + (y_1 - \sqrt{n}\mu)^2 - n\mu^2 + n\mu^2\right]\right\}\)
\(= (2\pi\sigma^2)^{-\frac{n}{2}} \exp\left\{-\frac{1}{2\sigma^2} \left[\left(\sum_{i = 1}^{n} y_i^2\right) + (y_1 - \sqrt{n}\mu)^2\right]\right\}\)
由此,\(Y = (y_1, y_2, \cdots, y_n)^T\) 的各个分量相互独立,且都服从正态分布。其方差均为 \(\sigma^2\),而均值并不完全相同:\(y_2, \cdots, y_n\) 的均值为0,\(y_1\) 的均值为 \(\sqrt{n}\mu\)。这就证明了结论(2)。
由于 \((n - 1)s^2 = \sum_{i = 1}^{n} (x_i - \bar{x})^2 = \sum_{i = 1}^{n} x_i^2 - (\sqrt{n}\bar{x})^2 = \sum_{i = 1}^{n} y_i^2 - y_1^2 = \sum_{i = 2}^{n} y_i^2\),这证明了结论(1)。
由于 \(y_2, \cdots, y_n\) 独立同分布于 \(N(0, \sigma^2)\),于是:
\(\frac{(n - 1)s^2}{\sigma^2} = \sum_{i = 2}^{n} \left(\frac{y_i}{\sigma}\right)^2 \sim \chi^2(n - 1)\)
1.5 应用
卡方分布广泛应用于统计学中的假设检验,特别是在方差分析(ANOVA)和列联表检验中。它也用于信号处理、通信理论和量子力学等领域。
2. F分布
2.1 F分布定义
设随机变量\(X_1\sim\chi^2(m)\),\(X_2\sim\chi^2(n)\),\(X_1\)与\(X_2\)独立,则称\(F = \frac{X_1/m}{X_2/n}\)的分布是自由度为\(m\)与\(n\)的\(F\)分布,记为\(F\sim F(m,n)\),其中\(m\)称为分子自由度,\(n\)称为分母自由度。
2.2 F分布密度函数
下面分两步来导出\(F\)分布的密度函数。
第一步,我们导出\(Z=\frac{X_1}{X_2}\)的密度函数,若记\(p_1(x)\)和\(p_2(x)\)分别为\(\chi^2(m)\)和\(\chi^2(n)\)的密度函数,根据独立随机变量商的分布的密度函数的公式,\(Z\)的密度函数为
运用变换 \(u = \frac{x_2}{2}(1 + z)\),则 \(\mathrm{d}u = \frac{1}{2}(1 + z)\mathrm{d}x_2\),从而 \(\mathrm{d}x_2 = \frac{2}{1 + z}\mathrm{d}u\)。
当 \(x_2 = 0\) 时,\(u = 0\);当 \(x_2 \to \infty\) 时,\(u \to \infty\)。
因此,积分可以转换为:
注意,在最后一步中,我们利用了伽马函数的定义 \(\Gamma(a) = \int_{0}^{\infty} t^{a-1} e^{-t} \mathrm{d}t\),将积分 \(\int_{0}^{\infty} u^{\frac{m + n}{2}-1} e^{-u} \mathrm{d}u\) 化简为 \(\Gamma\left(\frac{m + n}{2}\right)\)。同时,我们也将 \(2^{\frac{m + n}{2} - 1}\) 合并到了前面的系数中。
第二步,我们导出 \(F = \frac{n}{m}Z\) 的密度函数。设 \(F\) 的取值为 \(y\),对于 \(y \geq 0\),有:
这就是自由度为 \(m\) 与 \(n\) 的 \(F\) 分布的密度函数。该密度函数的图像是一个只取非负值的偏态分布
附录B
附录B.1 卡方分布画图
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import chi2
# 设置自由度
dfs = [4, 6, 10]
# 生成 x 值的范围
x = np.linspace(0, 30, 1000)
# 计算卡方分布的概率密度函数
for df in dfs:
pdf = chi2.pdf(x, df)
plt.plot(x, pdf, label=f'Chi-square(df={df})')
# 绘制概率密度函数图像
plt.xlabel('x')
plt.ylabel('Probability Density')
plt.title('Chi-square Distribution')
plt.legend()
plt.grid(True)
plt.show()
附录B.2 F分布画图
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import f
# 设置自由度参数
d1 = 4
d2s = [4000, 10, 4, 1]
# 生成 x 值的范围
x = np.linspace(0, 5, 1000)
# 计算 F 分布的概率密度函数
for d2 in d2s:
pdf = f.pdf(x, d1, d2)
plt.plot(x, pdf, label=f'F({d1}, {d2})')
# 绘制概率密度函数图像
plt.xlabel('x')
plt.ylabel('Probability Density')
plt.title('F Distribution')
plt.legend()
plt.grid(True)
plt.show()
浙公网安备 33010602011771号