数据分析的统计基础5

样本均值、样本比例和样本方差的抽样分布

样本均值的抽样分布

在重复选取容量为n的样本时，由样本均值的所有可能取值形成的相对频数分布
一种理论概率分布
推断总体均值$\mu$的理论基础
大数定律表明：当来自于独立同分布(i.i.d)的总体(该总体均值为$\mu$，方差为$\sigma^2$)中$n$个随机变量$X_1,X_2,...X_n$，其均值$\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i$，随着$n \to \infty$，有$E(\bar X)=\mu，Var(\bar X) =\sigma^2/n$，中心极限定理告诉表明：随着$n \to \infty$，$\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i$近似服从正态分布。综合两者有：$\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i \sim N(\mu,\sigma^2/n)$

两样本均值差的分布

两个总体都为正态分布，即$ X_1 \sim N(\mu_1 ,\sigma_1^2)$ ，$ X_2 \sim N(\mu_2 ,\sigma_2^2 )$
两个样本均值之差$\bar X_1 - \bar X_2$的抽样分布服从正态分布,即$\bar X_1 - \bar X_2 \sim N(\mu_1-\mu_2,\sigma_1^2/n_1 + \sigma_2^2/n_2)$，其分布的数学期望和方差分别为：

\[E(\bar X_1 - \bar X_2) = E(\bar X_1 - \bar X_2) = \mu_1 - \mu_2 \]
\[Var(\bar X_1 - \bar X_2) = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} \]
特别地，若$\sigma_1^2 = \sigma_2^2 = \sigma^2$时，有：

\[\frac{(\bar X_1 - \bar X_2 ) - (\mu_1 - \mu_2)}{s_\omega \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2) \]
其中$s_\omega^2 = \frac{(n_1-1)s_1^2 + (n_2 - 1)s_2^2}{(n_1-1)+(n_2-1)}$

样本比例的抽样分布

总体比例：$\pi = N_0 / N$，具有$0$类特征的数量$N_0$与总体所有的数量$N$，样本比例：$p = n_0 / n $
在重复选取容量为n的样本时，由样本比例的所有可能取值形成的相对频数分布
一种理论概率分布
推断总体比例$\pi$的理论基础
样本比例的均值满足：$E(p) = \pi$，样本比例的方差需要关注有放回(重复)抽样和无放回(不重复)抽样的问题
- 重复抽样(独立同分布)：
- \[Var(p) = \frac{\pi (1 - \pi)}{n} \]
- 不重复抽样：
- \[Var(p) = \frac{\pi (1-\pi)}{n} \frac{N-n}{N-1} ，\frac{N-n}{N-1} \text{被称为有限总体校验，当}n<<N\text{时，可以忽略} \]
当样本容量很大时，样本比例的抽样分布可用正态分布近似当样本容量很大时，样本比例的抽样分布可用正态分布近似

棣莫弗-拉普拉斯中心极限定理：设$X_1,X_2,...X_n,...$是独立同分布(independently identically distribution)的随机变量，$X_i$的分布是$P(X_i=1)=p$，$P(X_i=0) = 1- p$，$ 0 < p < 1$。

则对任何实数$x$，有

\[\lim_{n \to \infty} P\left( \frac{\sum \limits_{i=1}^{n}X_i - np}{\sqrt{np(1-p)}} \leq x \right) = \Phi(x) \]

单个$X_i$服从伯努利分布，可以理解为属于某个特征和不属于某个特征，其满足$\mu = p，\sigma^2 = p(1-p)$。$E(\sum \limits_{i=1}^{n}X_i) = np，Var(\sum \limits_{i=1}^{n}X_i) = np(1-p)$。上式(证明从略)，又表明当$n \to \infty$时，$\sum \limits_{i=1}^{n}近似服从正态分布，$$\sum \limits_{i=1}^{n}X_i) \sim N(np,np(1-p))$，上式还可以改写为：

\[\lim \limits _{n \to \infty}P\left(\frac{\bar X - p}{\sqrt{p(1-p)/n}} \leq x \right) = \Phi(x) \]

对于$n$个伯努利随机变量，$\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i$的实际意义即为$X_i$为"$1$" 类的占比。

样本方差的抽样分布

在重复选取容量为$n$的样本时，由样本方差的所有可能取值形成的相对频数分布
对于来自正态总体的简单随机样本，则比值$\frac{(n-1)s^2}{\sigma^2} \sim \chi_{n-1}^2$

两个样本方差比的分布

两个总体都为正态分布，即$ X_1 \sim N(\mu_1 ,\sigma_1^2)$ ，$ X_2 \sim N(\mu_2 ,\sigma_2^2 )$
从两个总体中分别抽取容量为$n_1$和$n_2$的独立样本
两个样本方差比的抽样分布，服从分子自由度为 $(n_1-1)$，分母自由度为$(n_2-1)$ 的$F$分布

说明：

\[\frac{(n_1-1)s_1^2}{\sigma_1^2} \sim \chi_{n_1-1}^2 ， \frac{(n_2-1)s_2^2}{\sigma_2^2} \sim \chi_{n_2-1}^2 \]

根据$F$分布的定义，上式相除有：

\[\frac{s_1^2/s_2^2}{\sigma_1^2/\sigma_2^2} \sim F(n_1-1,n_2-1) \]

有了上表，我们分别构造了估计总体参数$\mu$，$\pi$，$\tau$，$\sigma^2$的估计量$\bar X$，$p$，$T=N\bar X$，$s^2$，如果我们知道总体的方差，则可以给出对应的估计的标准误差，当总体方差未知时，我们可以通过标准误的估计来估计总体的方差。

posted @ 2019-08-24 21:46 Evian_Jeff 阅读(880) 评论(0) 收藏举报

刷新页面返回顶部

Evian_Jeff

The best time to plant a tree is 10 years ago, the second is now