统计学——抽样分布理论习题精解
抽样分布理论研究的是样本统计量(如样本均值、样本方差)在重复抽样下形成的概率分布。它揭示了样本统计量的随机性和规律性,为参数估计和假设检验提供理论基础。抽样分布的形状和参数取决于总体分布、样本量及抽样方法。抽样分布理论在统计推断中起到桥梁作用,是理解数据波动和推断误差的关键。
一、抽样分布定理理论
样本均值(Sample Mean)为:$$\bar{X} = \frac{1}{n} \sum_{i=1}^{n} x_i$$
其中:
- $ \bar{X} $ 表示样本均值。
 - $ x_i $ 表示第 $ i $ 个样本值。
 - $ n $ 表示样本的总数。
 
样本方差(Sample Variance)为:$$S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{X})^2$$
其中:
- $ S^2 $ 表示样本方差。
 - $ x_i $ 表示第 $ i $ 个样本值。
 - $ \bar{X} $ 表示样本均值。
 - $ n $ 表示样本的总数。
 
抽样分布定理:假设 \(X_1,X_2,\dots,X_n\)是来自总体\(N(\mu,\sigma^2)\)的样本,\(\bar{X}\)和\(S^2\)分别为样本均值和样本方差,则有:
(1)\(\bar{X}\backsim N(\mu,\frac{\sigma^2}{n})\);
(2)\(\bar{X}\)与\(S^2\)相互独立;
(3)\(\frac{(n-1)S^2}{\sigma^2}\backsim \chi^2(n-1)\)
定理1(样本均值分布)
设 \(X_1, X_2, \dots, X_n\) 是来自总体\(N(\mu,\sigma^2)\)的样本,样本均值 \(\bar{X}\) 标准化后的分布为标准正态分布N(0,1)。
定理2(样本的均值与方差的联合分布)
设 \(X_1,X_2,\dots,X_n\)是来自总体\(N(\mu,\sigma^2)\)的样本,\(\bar{X}\)和\(S^2\)分别为样本均值和样本方差,则有
定理3 (两总体样本均值差的分布)
设 \(X\backsim N(\mu_1,\sigma^2)\),$ Y \backsim N(\mu_2,\sigma^2)$ ,且\(X\)与\(Y\)独立, \(X_1,X_2,\dots,X_{n1}\)是来自总体\(N(\mu_1,\sigma^2)\)的样本,\(Y_1,Y_2,\dots,Y_{n2}\)是来自总体\(N(\mu_2,\sigma^2)\)的样本,$S_1^2 $ 和 $S_2^2 $ 分别是这两个样本的样本方差,则有
定理4 (两总体样本方差比的分布)
设 \(X\backsim N(\mu_1,\sigma_1^2)\),$ Y \backsim N(\mu_2,\sigma_2^2)$ ,且\(X\)与\(Y\)独立, \(X_1,X_2,\dots,X_{n1}\)是来自总体\(N(\mu_1,\sigma_1^2)\)的样本,\(Y_1,Y_2,\dots,Y_{n2}\)是来自总体\(N(\mu_2,\sigma_2^2)\)的样本,$S_1^2 $ 和 $S_2^2 $ 分别是这两个样本的样本方差,则有
定理5 (两总体t分布的相加性)
设 $ X_1, X_2, \cdots, X_m $ 服从正态分布 \(\sim N(a_1, \sigma_1^2)\), $ Y_1, Y_2, \cdots, Y_n $ 服从正态分布\(\sim N(a_2, \sigma_2^2)\), 且假定 \(\sigma_1^2 = \sigma_2^2 = \sigma^2\), 样本 $ X_1, X_2, \cdots, X_m $ 与 $ Y_1, Y_2, \cdots, Y_n $ 独立,则
此处 \((n+m-2)S_w^2 = (m-1)S_1^2 + (n-1)S_2^2\),其中
证明: 由抽样分布定理可知 \(\bar{X} \sim N(a, \sigma^2/m), \bar{Y} \sim N(a_2, \sigma^2/n)\),故有 \(\bar{X} - \bar{Y} \sim N(a_1 - a_2, (\frac{1}{m} + \frac{1}{n})\sigma^2) = N(a_1 - a_2, \frac{m+n}{mn}\sigma^2)\)。将其标准化得
又 \((m-1)S_1^2/\sigma^2 \sim \chi^2_{m-1}, (n-1)S_2^2/\sigma^2 \sim \chi^2_{n-1}\),再利用 \(\chi^2\) 分布的性质可知
再由 (1) 和 (2) 中 \((\bar{X}, \bar{Y})\) 与 \((S_1^2, S_2^2)\) 相互独立,由定义可知
二、习题与解答
2.1 硬质黏土上种植的胡萝卜,假设胡萝卜长度 \(X\) 服从 \(\mu = 11.5\)cm 和 \(\sigma = 1.15\)cm 的正态分布。对于25个这种胡萝卜的一个随机样本,样本均值 \(\overline{X}\) 与 \(\mu\) 相差在 0.5cm 之内的概率是多少?
求解过程
- 理解问题:我们需要计算样本均值 \(\overline{X}\) 在 \(\mu \pm 0.5\text{cm}\) 范围内的概率。
 - 已知条件:\(\mu = 11.5\text{cm}\),\(\sigma = 1.15\text{cm}\),样本容量 \(n = 25\)。
 - 计算标准误差:\(\sigma_{\overline{X}} = \frac{\sigma}{\sqrt{n}} = \frac{1.15}{\sqrt{25}} = 0.23\text{cm}\)。
 - 标准化:将样本均值的区间转换为标准正态分布区间:\[P(11.5 - 0.5 \leq \overline{X} \leq 11.5 + 0.5) = P\left(\frac{11.0 - 11.5}{0.23} \leq Z \leq \frac{12.0 - 11.5}{0.23}\right) \]\[= P(-2.17 \leq Z \leq 2.17) \]
 - 查找标准正态分布表:查找 \(z = 2.17\) 对应的概率值,\(P(Z \leq 2.17) \approx 0.9850\)。
 - 计算概率:由于标准正态分布是对称的,我们有:\[P(-2.17 \leq Z \leq 2.17) = 2 \times (0.9850 - 0.5) = 0.9700 \]
 - 样本均值 \(\overline{X}\) 与 \(\mu\) 相差在 0.5cm 之内的概率大约为 0.9700。
 
2.2 某文化人类学家使用放射性测时技术发现,一种骨质工具的年龄 \(X\) 基本上服从正态分布(\(\mu = 12500\) 年,\(\sigma = 400\) 年)。如果从数千个这种工具中抽取 150 个随机样本,其中每个样本包含 \(n = 4\) 个工具,并分别测定时间,则有多少个样本的均值为 12800 年或更长?
求解过程
- 理解问题:我们需要计算样本均值 \(\overline{X}\) 大于或等于 12800 年的概率,并估计150个样本中有多少个满足此条件。
 - 已知条件:总体均值 \(\mu = 12500\) 年,总体标准差 \(\sigma = 400\) 年,样本容量 \(n = 4\)。
 - 计算样本标准差:\(\sigma_{\overline{X}} = \frac{\sigma}{\sqrt{n}} = \frac{400}{\sqrt{4}} = 200\) 年。
 - 标准化:将样本均值的区间转换为标准正态分布区间:\[P(\overline{X} \geq 12800) = P\left(Z \geq \frac{12800 - 12500}{200}\right) = P(Z \geq 1.50) \]
 - 查找标准正态分布表:查找 \(z = 1.50\) 对应的概率值,\(P(Z \geq 1.50) = 0.5 - 0.4332 = 0.0668\)。
 - 计算期望个数:150 个样本中均值为 12800 年或更长的期望个数是:\[0.0668 \times 150 = 10.02 \text{ 或 } 10.0 \]
 - 在150个样本中,预计有大约10个样本的均值会达到或超过12800年。
 
2.3 一个化妆品制造商雇有 1500 个人户推销员,上月他们的平均销售额是 \(\mu = \$3100\),标准差 \(\sigma = \$350\)。如果无放回地抽取 49 个推销员作为随机样本,则该样本在上月的平均销售额少于 $3000 的概率是多少?
求解过程
- 理解问题:我们需要计算样本均值 \(\overline{X}\) 小于 $3000 的概率。
 - 已知条件:总体均值 \(\mu = \$3100\),总体标准差 \(\sigma = \$350\),样本容量 \(n = 49\)。
 - 应用中心极限定理:由于 \(n \geq 30\) 且 \(N \geq 2n\),可以使用中心极限定理,样本均值 \(\overline{X}\) 近似服从正态分布。
 - 计算样本标准差:\(\sigma_{\overline{X}} = \frac{\sigma}{\sqrt{n}} = \frac{350}{\sqrt{49}} = \$50\)。
 - 标准化:将样本均值的区间转换为标准正态分布区间:\[P(\overline{X} < \$3000) \approx P\left(Z < \frac{\$3000 - \$3100}{\$50}\right) = P(Z < -2.00) \]
 - 查找标准正态分布表:查找 \(z = 2.00\) 对应的概率值,\(P(Z < -2.00) = 0.5 - 0.4772 = 0.0228\)。
 - 样本在上月的平均销售额少于 $3000 的概率大约为 0.0228。
 
2.4 假设某物体的实际重量为 \(\mu\),但它是未知的。现在用一架天平去称它,共得到 \(X_1, X_2, \ldots, X_{10}\)。假设每次称量过程彼此独立且没有系统误差,则可以认为这些值都服从正态分布 \(N(\mu, \sigma^2)\),方差 \(\sigma^2\) 反映了天平及测量过程的总精度,试求:
求解过程
- 由于 \(X_i \sim N(\mu, \sigma^2)\),样本均值 \(\overline{X}\) 服从正态分布 \(N(\mu, \frac{\sigma^2}{10})\)。
 - 标准化得到:
 
- 推导过程
 
- 查标准正态分布表,得到 \(P(-2 < Z < 2) \approx 0.9544\)。
 
2.5 设 \(X_1, X_2, \ldots, X_{15}\) 为正态总体 \(N(0, 3^2)\) 的一个样本,\(\overline{X}\) 为样本均值,求:
求解过程
- 由于 \(X_i \sim N(0, 3^2)\),样本方差 \(S^2 = \frac{1}{14}\sum_{i=1}^{15}(X_i - \overline{X})^2\) 服从卡方分布 \(\chi^2(14)\)。
 - 所以
 
- 推导:
 
- 查卡方分布表,得到 \(P(4.0722 \leq \chi^2(14) \leq 26.1111) \approx 0.90\)。
 
2.6 若 \(X \sim t(n)\),求 \(\frac{1}{X^2}\) 的分布。
求解过程
若 \(X \sim t(n)\),则 \(X^2 \sim F(1, n)\)。
所以,
这是 \(X^2\) 分布的倒数分布。
2.7 设总体 \(\overline{X} \sim N(\mu, \sigma^2)\),从此总体中取一个容量为 \(n=16\) 的样本 \((X_1, X_2, \ldots, X_{16})\),求概率
(1) \(P\left\{\frac{\sigma^2}{2} \leq \frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2 \leq 2\sigma^2 \right\}\);
(2) \(P\left\{\frac{\sigma^2}{2} \leq \frac{1}{n} \sum_{i=1}^{n} (X_i - \overline{X})^2 \leq 2\sigma^2 \right\}\).
求解过程
(1) \(P\left\{\frac{\sigma^2}{2} \leq \frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2 \leq 2\sigma^2 \right\}\)
- 理解问题:这个问题要求我们计算样本方差 \(\frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2\) 落在 \(\frac{\sigma^2}{2}\) 和 \(2\sigma^2\) 之间的概率。这里 \(X_i\) 是从正态分布 \(N(\mu, \sigma^2)\) 中抽取的样本。
 - 使用卡方分布:由于 \(X_i \sim N(\mu, \sigma^2)\),我们知道 \(\frac{1}{\sigma^2} \sum_{i=1}^{n} (X_i - \mu)^2\) 服从自由度为 \(n\) 的卡方分布,即 \(\chi^2(n)\)。
 - 转换问题:我们需要计算 \(\frac{\sigma^2}{2} \leq \frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2 \leq 2\sigma^2\) 的概率,这等价于计算 \(\frac{n}{2} \leq \chi^2(n) \leq 2n\) 的概率。
 - 查表或使用软件:使用卡方分布表或统计软件来查找 \(P(\frac{n}{2} \leq \chi^2(n) \leq 2n)\) 的值。对于 \(n=16\),我们需要查找 \(P(8 \leq \chi^2(16) \leq 32)\)。
 
(2) \(P\left\{\frac{\sigma^2}{2} \leq \frac{1}{n} \sum_{i=1}^{n} (X_i - \overline{X})^2 \leq 2\sigma^2 \right\}\)
- 理解问题:这个问题要求我们计算样本方差 \(\frac{1}{n} \sum_{i=1}^{n} (X_i - \overline{X})^2\) 落在 \(\frac{\sigma^2}{2}\) 和 \(2\sigma^2\) 之间的概率。这里 \(\overline{X}\) 是样本均值。
 - 使用卡方分布:由于 \(X_i \sim N(\mu, \sigma^2)\),我们知道 \(\frac{1}{\sigma^2} \sum_{i=1}^{n} (X_i - \overline{X})^2\) 服从自由度为 \(n-1\) 的卡方分布,即 \(\chi^2(n-1)\)。
 - 转换问题:我们需要计算 \(\frac{\sigma^2}{2} \leq \frac{1}{n} \sum_{i=1}^{n} (X_i - \overline{X})^2 \leq 2\sigma^2\) 的概率,这等价于计算 \(\frac{n-1}{2} \leq \chi^2(n-1) \leq 2(n-1)\) 的概率。
 - 查表或使用软件:使用卡方分布表或统计软件来查找 \(P(\frac{n-1}{2} \leq \chi^2(n-1) \leq 2(n-1))\) 的值。对于 \(n=16\),我们需要查找 \(P(7.5 \leq \chi^2(15) \leq 30)\)。
 
这两个问题都涉及到卡方分布的应用,具体的概率值需要通过查表或使用统计软件来获得。对于 \(n=16\) 的情况,你需要查找相应的卡方分布表或使用统计软件来得到精确的概率值。
2.8 设 \(\overline{X}_1\) 和 \(\overline{X}_2\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的容量为 \(n\) 的两样本 \((X_{11}, X_{12}, \ldots, X_{1n})\) 和 \((X_{21}, X_{22}, \ldots, X_{2n})\) 的样本均值,试确定 \(n\),使得这两个样本均值之差超过 \(\sigma\) 的概率大约为 0.01。
求解过程
- 理解问题:我们需要找到样本容量 \(n\),使得两个独立样本均值之差 \(|\overline{X}_1 - \overline{X}_2|\) 超过 \(\sigma\) 的概率大约为 0.01。
 - 样本均值的分布:由于 \(X_{1i} \sim N(\mu, \sigma^2)\) 和 \(X_{2i} \sim N(\mu, \sigma^2)\),样本均值 \(\overline{X}_1\) 和 \(\overline{X}_2\) 也服从正态分布:\[\overline{X}_1 \sim N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{和} \quad \overline{X}_2 \sim N\left(\mu, \frac{\sigma^2}{n}\right) \]
 - 差值的分布:两个独立正态分布的差值 \(\overline{X}_1 - \overline{X}_2\) 也服从正态分布:\[\overline{X}_1 - \overline{X}_2 \sim N\left(0, \frac{2\sigma^2}{n}\right) \]
 - 标准化:将差值标准化,得到标准正态分布:\[Z = \frac{\overline{X}_1 - \overline{X}_2}{\sqrt{\frac{2\sigma^2}{n}}} \sim N(0, 1) \]
 - 计算概率:我们需要找到 \(n\) 使得:\[P\left(|\overline{X}_1 - \overline{X}_2| > \sigma\right) = 0.01 \]这等价于:\[P\left(\left|\frac{\overline{X}_1 - \overline{X}_2}{\sqrt{\frac{2\sigma^2}{n}}}\right| > \frac{\sigma}{\sqrt{\frac{2\sigma^2}{n}}}\right) = 0.01 \]简化得到:\[P\left(|Z| > \sqrt{\frac{n}{2}}\right) = 0.01 \]
 - 查找标准正态分布表:查找标准正态分布表,找到 \(z\) 值使得 \(P(|Z| > z) = 0.01\)。这对应于 \(P(Z > z) = 0.005\),查表得到 \(z \approx 2.576\)。
 - 求解 \(n\):设置 \(\sqrt{\frac{n}{2}} = 2.576\),解得:\[\frac{n}{2} = 2.576^2 \implies n = 2 \times 2.576^2 \approx 13.23 \]由于 \(n\) 必须是整数,我们取 \(n = 14\)。
 - 通过上述步骤,我们确定样本容量 \(n = 14\) 时,两个样本均值之差超过 \(\sigma\) 的概率大约为 0.01。
 
2.9 根据以往情形,某校学生数学成绩 \(X \sim N(72, 10^2)\),在一次抽考中,至少应让多少名学生参加考试,可以使参加考试的学生的平均成绩大于 70 分的概率达到 0.9 以上?
要解决这个问题,我们需要使用正态分布的性质和中心极限定理。给定条件是:
- 学生数学成绩 $ X \sim N(72, 10^2) $,即均值为 72,标准差为 10。
 - 我们需要找到至少多少名学生 $ n $ 参加考试,使得平均成绩大于 70 分的概率达到 0.9 以上。
 
求解过程
- 
样本均值 $ \bar{X} $ 的分布为 $ \bar{X} \sim N(72, \frac{10^2}{n}) $。
 - 
我们需要找到 $ n $ 使得:
 
这可以转化为:
其中 $ Z $ 是标准正态分布。我们需要找到 $ z $ 使得 $ P(Z > z) = 0.1 $(因为 $ P(Z < -z) = 0.1 $),查标准正态分布表得 $ z \approx 1.28 $。
- 因此:
 
- 解这个方程:
 
由于 $ n $ 必须是整数,我们取 $ n = 41 $。
- 至少需要 41 名学生参加考试,才能使平均成绩大于 70 分的概率达到 0.9 以上。
 
2.10 设总体 $ X \sim N(0, 2^2) $,而 $ X_1, X_2, \ldots, X_{15} $ 是 $ X $ 的样本,则
服从什么分布,参数是多少?又问当 $ a $ 为何值时,
服从 $ F(6, 9) $?
求解过程
- 
我们知道 $ X \sim N(0, 2^2) $,即 $ X $ 服从均值为 0,方差为 4 的正态分布。
 - 
对于 $ Y $ 的分布:
 
由于 \(X_i \sim N(0, 4)\),我们有 \(\frac{X_i}{2} \sim N(0, 1)\)。因此,\(\left(\frac{X_i}{2}\right)^2 \sim \chi^2(1)\)。
- 
$ X_1^2 + \cdots + X_{10}^2 $ 可以表示为 $ 4 \left( \left(\frac{X_1}{2}\right)^2 + \cdots + \left(\frac{X_{10}}{2}\right)^2 \right) $,这服从 $ 4 \chi^2(10) $。
 - 
$ X_{11}^2 + \cdots + X_{15}^2 $ 可以表示为 $ 4 \left( \left(\frac{X_{11}}{2}\right)^2 + \cdots + \left(\frac{X_{15}}{2}\right)^2 \right) $,这服从 $ 4 \chi^2(5) $。
 - 
因此,
 
这服从 $ F(10, 5) $ 分布。
- 我们需要 $ F $ 服从 $ F(6, 9) $ 分布。即:
 
- 
$ X_1^2 + \cdots + X_6^2 $ 可以表示为 $ 4 \left( \left(\frac{X_1}{2}\right)^2 + \cdots + \left(\frac{X_6}{2}\right)^2 \right) $,这服从 $ 4 \chi^2(6) $。
 - 
$ X_7^2 + \cdots + X_{15}^2 $ 可以表示为 $ 4 \left( \left(\frac{X_7}{2}\right)^2 + \cdots + \left(\frac{X_{15}}{2}\right)^2 \right) $,这服从 $ 4 \chi^2(9) $。
 - 
因此,
 
为了使 $ F $ 服从 $ F(6, 9) $ 分布,我们需要 $ a = 1 $。
- $ Y $ 服从 $ F(10, 5) $ 分布,而 $ F $ 在 $ a = 1 $ 时服从 $ F(6, 9) $ 分布。
 
2.11 设 $ X_1, X_2, \ldots, X_9 $ 和 $ Y_1, Y_2, \ldots, Y_{16} $ 分别为来自总体 $ X \sim N(\mu_1, 2^2) $ 和 $ Y \sim N(\mu_2, 2^2) $ 的两个相互独立的样本,它们的样本均值和样本方差分别为 $ \overline{X}, \overline{Y} $ 和 $ S_1^2, S_2^2 $。求以下各式中的 $ \alpha_1, \alpha_2, \ldots, \alpha_6$。
(1) \(P\{\alpha_1 < \sum_{i=1}^{9}(X_i - \overline{X})^2 < \alpha_2\} = 0.9\);
(2) \(P\{|\overline{X} - \mu_1| < \alpha_3\} = 0.9\);
(3) \(P\left\{\left|\overline{Y} - \mu_2\right|/\sqrt{\sum_{i=1}^{16}(Y_i - \overline{Y})^2} < \alpha_4\right\} = 0.9\);
(4) \(P\left\{\alpha_5 < \frac{15S_2^2}{8S_1^2} < \alpha_6\right\} = 0.9\).
求解过程:
(1) \(P\{\alpha_1 < \sum_{i=1}^{9}(X_i - \overline{X})^2 < \alpha_2\} = 0.9\)
由于 $X_i \sim N(\mu_1, 4) $,我们有 \(\frac{(X_i - \mu_1)^2}{4} \sim \chi^2(1)\)。因此,\(\sum_{i=1}^{9} \frac{(X_i - \mu_1)^2}{4} \sim \chi^2(9)\)。
我们需要找到 $\alpha_1 $ 和 $ \alpha_2$ 使得:
查 $ \chi^2 $ 分布表,找到 $ \chi^2_{0.05}(8) $ 和 $ \chi^2_{0.95}(8) $,然后乘以 4。
(2) \(P\{|\overline{X} - \mu_1| < \alpha_3\} = 0.9\)
由于 $ \overline{X} \sim N(\mu_1, \frac{4}{9}) $,我们有:
我们需要找到 $ \alpha_3 $ 使得:
查标准正态分布表,找到 $ z_{0.05} $,然后计算 $ \alpha_3 = z_{0.05} \sqrt{\frac{4}{9}} $。
(3) \(P\left\{\left|\overline{Y} - \mu_2\right|/\sqrt{\sum_{i=1}^{16}(Y_i - \overline{Y})^2} < \alpha_4\right\} = 0.9\)
由于 $ \overline{Y} \sim N(\mu_2, \frac{4}{16}) $ 和 $ \sum_{i=1}^{16}(Y_i - \overline{Y})^2 \sim 4 \chi^2(16-1) $,我们有:
我们需要找到 $ \alpha_4 $ 使得:
查 $ t $ 分布表,找到 $ t_{0.05}(15) $,然后计算 $ \alpha_4 = t_{0.05}(15) \sqrt{\frac{4}{16}} $。
(4) \(P\left\{\alpha_5 < \frac{15S_2^2}{8S_1^2} < \alpha_6\right\} = 0.9\)
由于 $ \frac{S_1^2}{2} \sim \chi^2(8) $ 和 $ \frac{S_2^2}{2} \sim \chi^2(15) $,我们有:
我们需要找到 $ \alpha_5 $ 和 $ \alpha_6 $ 使得:
查 $ F $ 分布表,找到 $ F_{0.05}(15, 8) $ 和 $ F_{0.95}(15, 8) $。
                    
                
                
            
        
浙公网安备 33010602011771号