数据分析的统计基础4
大数定律、中心极限定理与几大导出分布
大数定律
令\(X_1,X_2,...,X_i...\)是独立随机变量序列,\(E(X_i)=\mu\),\(Var(X_i)=\sigma^2\)。令\(\bar X_n = n^{-1}\sum \limits_{i=1}^{n}X_i\)。那么对于任意的\(\varepsilon >0\),当\(n \to \infty\)时,有
证明:首先计算\(E(\bar X_n)\)和\(Var(\bar X_n)\):
根据期望的线性性质,\(E(\bar X_n) = \frac{1}{n}\sum \limits_{i=1}^{n}E(X_i) = \mu\)
又因为\(X_i\)独立,\(Var(\bar X_n) = \frac{1}{n^2}\sum \limits_{i=1}^{n}Var(X_i) = \frac{\sigma^2}{n}\)
然后利用切比雪夫不等式即可:
如果随机变量序列\(Z_n\)满足对任意\(\varepsilon > 0\),当\(n \to \infty\)时,\(P(|Z_n - \alpha| > \varepsilon) \to 0\),其中\(\alpha\)是一个标量,那么称\(Z_n\)依概率收敛。
大数定律告诉我们,如果从同一总体中(无论总体服从何种分布),进行\(n\)重独立随机试验,随着\(n \to \infty\),\(n\)重独立随机试验组成的样本,其样本均值收敛于总体均值。
中心极限定理
如果\(X_1,X_2,...\)是均值为\(\mu\)和方差为\(\sigma^2\)的独立随机变量序列(无论分布如何),且\(S_n = \sum \limits_{i=1}^{n}X_i\)。由大数定理可知,\(S_n/n\)依概率收敛至\(\mu\)。这由如下事实得到:
中心极限定理不关心比率\(S_n/n\)是否收敛到\(\mu\),而是关心它是如何围绕\(\mu\)波动的。为了分析这种波动,对于\(S_n\),均值为\(n\mu\),方差为\(n\sigma^2\)。我们标准化(减去均值\(n\mu\),除以标准差\(\sqrt{n\sigma^2}\)):
可以证明,\(Z_n\)收敛于均值为\(0\),方差为\(1\)的的标准正态分布。此时有结论:
\(S_n\)收敛于均值为\(n\mu\),方差为\(n\sigma^2\)的正态分布。
\(S_n/n\)收敛于均值为\(\mu\),方差为\(\sigma^2/n\)的正态分布。(证明从略)
正态分布的导出分布
\(\chi^2\)分布
定义:如果\(Z\)是标准正态随机变量,\(U=Z^2\)的分布称为自由度为\(1\)的卡方分布。记作:\(\chi_1^2\)
- 如果\(X \sim N(\mu,\sigma^2)\),那么标准化后的\((X-\mu)/\sigma \sim N(0,1)\),因此\([(X-\mu)/\sigma]^2 \sim \chi_1^2\)。
- 如果\(U_1,U_2,...,U_n\)是相互独立的自由度为\(1\)的卡方随机变量,那么\(V = U_1 + U_2 + ... + U_n\)称为自由度为\(n\)的卡方分布,记作\(\chi_n^2\)。
- 相同\(\lambda\)值的独立伽马随机变量之和服从伽马分布,因此自由度为\(n\)的卡方分布是\(\alpha=n/2\)和\(\lambda = 1/2\)的伽马分布。
- \(E(V) = n\),\(Var(V)=2n\)
- 如果\(V\)和\(U\)独立,\(U\sim\chi_n^2\),\(V\sim\chi_m^2\),那么\(U+V\sim\chi_{m+n}^2\)
\(t\)分布
定义:如果\(Z\sim N(0,1)\),\(U\sim\chi_n^2\),且\(Z\)和\(U\)独立,那么\(Z/\sqrt{U/n}\)是自由度为\(n\)的\(t\)分布。
- \(t\)分布的密度函数满足\(f(-t)=f(t)\),所以\(t\)分布关于\(x=0\)对称。
- 当自由度趋于无穷时,\(t\)分布趋向于标准正态分布;事实上,当自由度超过20或30时,两个分布就非常接近。
- 随着自由度增加,\(t\)分布随着自由度的增加越来越薄。
\(F\)分布
令\(U\)和\(V\)是自由度分别为\(m\)和\(n\)的独立卡方随机变量,\(W = \frac{U/m}{V/n}\)的分布称为自由度为\(m\)和\(n\)的\(F\)分布,记作\(F_{m,n}\)
- 可以证明,在\(n>2\)时,\(E(W)\)存在且等于\(n/(n-2)\)。
- 由\(t\)分布和\(F\)分布的定义可知,随机变量\(t_n\)的平方服从\(F_{1,n}\)分布。
- 对于F分布上的\(\alpha\)分位点,有:\(F_{1-\alpha}(n_1,n_2)=1/F_\alpha(n_2,n_1)\)
样本均值和样本方差
令\(X_1,...,X_n\)是独立的\(N(\mu,\sigma^2)\)随机变量,我们称之为来自正态总体的样本。定义样本均值和样本方差分别为:
首先,\(\bar X\)是独立正态随机变量的线性组合,它是正态的,且\(E(\bar X) = \mu\),\(Var(\bar X) = \sigma^2/n\)。
-
\(\bar X\)和\(S^2\)独立
-
\((n-1)S^2/\sigma^2\)服从自由度为\(n-1\)的卡方分布
推导:
\[\frac{1}{\sigma^2}\sum \limits_{i=1}^{n}(X_i - \mu)^2 = \sum \limits_{i=1}^{n}\left( \frac{X_i - \mu}{\sigma} \right)^2 \sim \chi_n^2 \]同时,
\[\frac{1}{\sigma^2}\sum \limits_{i=1}^{n}\left(X_i - \mu \right)^2 = \frac{1}{\sigma^2}\sum \limits_{i=1}^{n}\left[\left(X_i - \bar X \right) + \left(\bar X - \mu \right)\right]^2 \]展开平方项,利用\(\sum \limits_{i=1}^{n}(X_i-\bar X) = 0\),我们得到:
\[\frac{1}{\sigma^2}\sum \limits_{i=1}^{n}\left(X_i - \mu \right)^2 = \frac{1}{\sigma^2}\sum\limits_{i=1}^{n} \left(X_i - \bar X \right) ^2+ \left( \frac{\bar X - \mu}{\sigma / \sqrt{n}}\right) ^ 2 \]这是\(W = U + V\)的关系形式,\(U\)和\(V\)独立,\(U\)和\(V\)都服从卡方分布。
-
\(\frac{\bar X - \mu}{S/\sqrt n } \sim t_{n-1}\)
说明:
上式中分子服从\(N(0,1)\)分布,\((n-1)S^2/\sigma^2\)服从\(\chi_{n-1}^2\)分布,因此该式服从\(t_{n-1}\)分布

浙公网安备 33010602011771号