4.4中心极限定理
中心极限定理 深度讲解与完整推导
各位同学,今天我们来系统讲解概率论中最核心、应用最广泛的定理之一——中心极限定理(Central Limit Theorem, CLT)。我会从问题起源、核心逻辑、定理证明、内涵解读到归纳总结,一步步带大家吃透这个知识点。
一、问题起源:我们为什么要研究中心极限定理?
在学习中心极限定理之前,我们已经学过大数定律:大数定律解决的是「独立随机变量序列的算术平均,依概率收敛到其总体均值」的问题,它告诉我们“当样本量足够大时,平均值会稳定在真值附近”,回答了“平均值的稳定性”问题。
但现实中,我们还需要回答一个更关键的问题:
大量独立的随机因素叠加后,总和的分布是什么样的?
比如教材中的例子:机械加工的误差,是机床振动、刀具磨损、材料差异、操作波动、测量误差、环境温湿度等无数个独立、微小的随机因素叠加的结果;每个因素对总误差的影响都微乎其微,且有正有负、随机出现。我们把总误差记为 \(Y_n = \sum_{i=1}^n X_i\),其中 \(X_i\) 是第 \(i\) 个因素的微小影响,\(n\) 是一个极大的数。
我们自然会问:当 \(n \to \infty\) 时,\(Y_n\) 的分布是什么?
- 直接用卷积公式计算 \(Y_n\) 的分布?对于 \(n\) 个独立均匀分布的和,\(n=4\) 时密度函数已经是分段的三次多项式,\(n=100\) 时计算量完全无法实现,必须寻找近似方法。
- 我们通过均匀分布的卷积例子可以直观看到:随着 \(n\) 增大,独立同分布随机变量和的密度函数,越来越光滑、越来越接近正态分布的钟形曲线。
这就是中心极限定理要解决的核心问题:在什么条件下,独立随机变量和的分布函数,会收敛到正态分布。
二、关键前提:随机变量和的标准化
在正式给出定理前,我们必须先解决一个核心问题:直接研究 \(Y_n = \sum_{i=1}^n X_i\) 的极限分布是不可行的。
假设 \(X_i\) 独立同分布,\(E(X_i)=\mu\),\(Var(X_i)=\sigma^2>0\),则:
当 \(n \to \infty\) 时,\(Y_n\) 的均值趋向无穷、方差也趋向无穷,它的分布会不断向右平移、越来越分散,不存在稳定的极限分布。
为了克服这个问题,我们必须对 \(Y_n\) 做标准化处理:将随机变量减去均值、再除以标准差,把它转化为均值为0、方差为1的标准化随机变量:
此时 \(E(Y_n^*)=0\),\(Var(Y_n^*)=1\),它的分布不会随 \(n\) 增大而平移或分散,我们就可以研究它的极限分布是否为标准正态分布 \(N(0,1)\)。
三、核心定理:林德伯格-莱维(独立同分布)中心极限定理
3.1 定理完整表述
定理4.4.1(林德伯格-莱维 Lindeberg-Lévy 中心极限定理)
设 \(\{X_n\}\) 是独立同分布的随机变量序列,且存在有限的数学期望和方差:
记标准化随机变量
则对任意实数 \(y\),有
其中 \(\Phi(y)\) 是标准正态分布 \(N(0,1)\) 的分布函数。
3.2 定理完整证明(特征函数法)
这个定理的证明核心是特征函数的连续性定理:
分布函数列 \(\{F_n(x)\}\) 弱收敛于分布函数 \(F(x)\),当且仅当对应的特征函数列 \(\{\varphi_n(t)\}\) 收敛于 \(F(x)\) 的特征函数 \(\varphi(t)\),对任意 \(t \in \mathbb{R}\)。
简单来说:特征函数的收敛,等价于分布的收敛。而独立随机变量和的特征函数,等于各变量特征函数的乘积,完美解决了卷积计算复杂的问题。
证明过程分为5步,每一步都有明确的逻辑:
步骤1:改写标准化变量,简化期望与方差
令 \(Z_i = X_i - \mu\),则 \(Z_i\) 也是独立同分布的随机变量序列,且:
此时标准化变量可改写为:
步骤2:推导标准化变量的特征函数
设 \(Z_i\) 的特征函数为 \(\varphi(t) = E\left[e^{itZ_i}\right]\)(特征函数的定义)。
根据特征函数的性质:
- 独立随机变量和的特征函数 = 各变量特征函数的乘积;
- 若 \(X\) 的特征函数为 \(\varphi_X(t)\),则 \(aX\) 的特征函数为 \(\varphi_X(at)\)。
因此 \(Y_n^*\) 的特征函数为:
步骤3:对特征函数做二阶泰勒展开
特征函数有一个核心性质:若随机变量的 \(k\) 阶矩存在,则其特征函数 \(k\) 阶可导,且 \(\varphi^{(k)}(0) = i^k E(X^k)\)。
对于 \(Z_i\),我们有:
- \(\varphi(0) = E\left[e^{i0 \cdot Z_i}\right] = E[1] = 1\)
- 一阶导数:\(\varphi'(0) = i E(Z_i) = 0\)
- 二阶导数:\(\varphi''(0) = i^2 E(Z_i^2) = -\sigma^2\)
根据泰勒展开定理,当 \(t \to 0\) 时,特征函数可展开为:
代入上述结果,得:
步骤4:代入标准化后的参数,化简特征函数
当 \(n \to \infty\) 时,\(\frac{t}{\sigma\sqrt{n}} \to 0\),满足泰勒展开的条件。我们将 \(t\) 替换为 \(\frac{t}{\sigma\sqrt{n}}\),代入展开式:
化简后:
步骤5:求特征函数的极限,应用连续性定理完成证明
我们已经得到 \(Y_n^*\) 的特征函数为 \(\left[ \varphi\left( \frac{t}{\sigma\sqrt{n}} \right) \right]^n\),现在求 \(n \to \infty\) 时的极限:
这里用到微积分中的重要极限:\(\lim_{n \to \infty} \left( 1 + \frac{a}{n} + o\left( \frac{1}{n} \right) \right)^n = e^a\),其中 \(a = -\frac{t^2}{2}\),因此:
而 \(e^{-\frac{t^2}{2}}\) 正是标准正态分布 \(N(0,1)\) 的特征函数!
根据特征函数的连续性定理,特征函数收敛到标准正态的特征函数,等价于 \(Y_n^*\) 的分布函数收敛到标准正态的分布函数。即对任意实数 \(y\):
定理得证。
四、定理的核心内涵与解读
- 正态分布的普适性根源
这个定理最伟大的价值,是揭示了正态分布的普遍性:无论单个随机变量服从什么分布(离散、连续、对称、偏态),只要它独立同分布、方差存在,当样本量n充分大时,它们的和/平均值就近似服从正态分布。
这就解释了为什么现实中身高体重、测量误差、产品尺寸、考试分数等绝大多数随机变量,都近似服从正态分布——它们都是大量独立微小随机因素的叠加结果。
-
比大数定律更精细的结论
大数定律只告诉我们 \(\bar{X}_n = \frac{1}{n}\sum X_i \stackrel{P}{\to} \mu\),即平均值会趋近于真值;
而中心极限定理进一步告诉我们:当n充分大时,\(\bar{X}_n \overset{近似}{\sim} N\left( \mu, \frac{\sigma^2}{n} \right)\),不仅知道平均值趋近于μ,还知道它的分布形态、能计算“平均值偏离μ某个范围的概率”,给了我们量化误差的工具,是数理统计大样本理论的核心。 -
大样本近似的实用价值
当n充分大时,我们无需知道 \(X_i\) 的具体分布,只需要知道它的均值和方差,就可以对和、平均值的概率做近似计算,彻底解决了卷积计算的复杂度问题,在抽样调查、质量控制、假设检验、误差分析等领域有不可替代的作用。
五、知识点归纳总结表格
表1 林德伯格-莱维中心极限定理核心信息
| 项目 | 详细内容 |
|---|---|
| 定理全称 | 林德伯格-莱维(Lindeberg-Lévy)中心极限定理(独立同分布中心极限定理) |
| 适用前提 | 1. 随机变量序列 \(\{X_n\}\) 相互独立 2. 所有 \(X_n\) 服从同一分布 3. 存在有限的数学期望 \(E(X_i)=\mu\),方差 \(Var(X_i)=\sigma^2>0\)(二阶矩存在) |
| 标准化随机变量 | \(Y_n^* = \frac{\sum_{i=1}^n X_i - n\mu}{\sigma\sqrt{n}}\),满足 \(E(Y_n^*)=0\),\(Var(Y_n^*)=1\) |
| 极限结论 | 对任意实数 \(y\),有 \(\lim_{n \to \infty} P(Y_n^* \leq y) = \Phi(y) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^y e^{-\frac{t^2}{2}} dt\),其中 \(\Phi(y)\) 为标准正态分布 \(N(0,1)\) 的分布函数 |
| 大样本近似分布 | 当n充分大时: 1. 随机变量和:\(\sum_{i=1}^n X_i \overset{近似}{\sim} N(n\mu, n\sigma^2)\) 2. 样本均值:\(\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \overset{近似}{\sim} N\left( \mu, \frac{\sigma^2}{n} \right)\) 3. 标准化变量:\(Y_n^* \overset{近似}{\sim} N(0,1)\) |
| 证明核心方法 | 特征函数法 + 特征函数连续性定理(分布函数弱收敛等价于特征函数收敛到极限分布的特征函数) |
表2 中心极限定理与辛钦大数定律的对比
| 对比维度 | 辛钦大数定律 | 林德伯格-莱维中心极限定理 |
|---|---|---|
| 适用条件 | 独立同分布,一阶矩(期望 \(\mu\))存在 | 独立同分布,二阶矩(期望 \(\mu\)、方差 \(\sigma^2>0\))存在(条件更强) |
| 研究核心 | 样本均值的依概率收敛性:\(\bar{X}_n \stackrel{P}{\to} \mu\),描述“平均值趋近于真值”的稳定性 | 标准化和的分布收敛性:\(Y_n^*\) 的分布收敛于标准正态分布,描述大样本下的分布形态 |
| 结论强度 | 仅给出平均值的极限值,无分布信息,结论更基础 | 不仅给出收敛趋势,还给出量化的分布信息,可计算概率误差,结论更精细、信息更丰富 |
| 核心用途 | 证明“频率依概率收敛于概率”,为点估计提供理论依据 | 大样本下的概率近似计算、区间估计、假设检验、误差分析,是数理统计大样本方法的核心 |
表3 中心极限定理应用要点与注意事项
| 分类 | 详细说明 |
|---|---|
| 核心理论价值 | 1. 揭示了正态分布的普适性:大量独立微小随机因素的叠加,总和的分布必然趋近正态 2. 解释了现实中绝大多数连续型随机变量近似服从正态分布的根本原因 |
| 应用前提 | 1. 大样本:通常 \(n \geq 30\) 即可获得较好的近似效果;分布越对称,所需n越小;分布越偏斜,所需n越大 2. 满足独立、同分布、方差有限的核心条件 |
| 典型应用场景 | 1. 误差分析:解释测量误差的正态性,计算误差范围与置信区间 2. 抽样调查:大样本下总体均值的区间估计、样本量设计 3. 质量控制:计算产品指标的合格率,判断生产过程是否稳定 4. 概率近似:无需原始分布,仅用均值方差即可计算和的概率 |
| 禁忌与注意 | 1. n较小时近似效果差,需用原始分布精确计算 2. 方差不存在的分布(如柯西分布),该定理完全不适用 3. 独立不同分布的场景,需使用更一般的林德伯格-费勒中心极限定理 |
中心极限定理经典应用例题 深度详解
这两个例题是林德伯格-莱维独立同分布中心极限定理最具代表性的工程与实践应用,完美体现了该定理从理论到落地的核心价值:一个解决了随机模拟中「正态随机数生成」的基础问题,另一个解决了数值计算中「累计误差的量化评估」问题。下面我们逐题进行完整、细致的讲解与推导。
例4.4.3 正态随机数的产生(蒙特卡洛模拟核心方法)
一、背景与应用价值
在随机模拟(蒙特卡洛方法)、统计仿真、机器学习采样等场景中,正态分布是使用最广泛的概率分布,但计算机只能直接生成最基础的(0,1)区间上均匀分布的伪随机数。如何从均匀分布随机数得到正态分布随机数,是随机模拟的核心基础问题,而中心极限定理给出了原理最简单、实现最便捷的解决方案。
二、核心原理铺垫
首先回顾基础分布的数字特征:
若随机变量 \(X\) 服从 \((0,1)\) 上的均匀分布,记为 \(X \sim U(0,1)\),则:
- 数学期望:\(E(X) = \int_{0}^{1} x dx = \frac{1}{2}\)
- 方差:\(Var(X) = E(X^2) - [E(X)]^2 = \int_{0}^{1} x^2 dx - \left(\frac{1}{2}\right)^2 = \frac{1}{3} - \frac{1}{4} = \frac{1}{12}\)
根据林德伯格-莱维中心极限定理:独立同分布、方差存在的随机变量,当n充分大时,其和的分布近似服从正态分布。
三、方法步骤详解与完整推导
步骤1:生成基础随机数
从计算机中生成12个相互独立的 \((0,1)\) 均匀分布随机数,记为 \(x_1,x_2,\dots,x_{12}\)。
关键前提:12个随机数独立同分布,完全满足中心极限定理的适用条件。
步骤2:生成标准正态分布随机数
计算 \(y = x_1 + x_2 + \dots + x_{12} - 6\),可将 \(y\) 近似看作标准正态分布 \(N(0,1)\) 的随机数。
完整推导:
设 \(Y = \sum_{i=1}^{12} X_i\),其中 \(X_i \sim U(0,1)\) 且相互独立,根据期望与方差的性质:
- 期望:\(E(Y) = E\left(\sum_{i=1}^{12} X_i\right) = 12 \times E(X_i) = 12 \times \frac{1}{2} = 6\)
- 方差:\(Var(Y) = Var\left(\sum_{i=1}^{12} X_i\right) = 12 \times Var(X_i) = 12 \times \frac{1}{12} = 1\)
对 \(Y\) 做标准化处理,得到标准化变量:
根据中心极限定理,\(Y^*\) 近似服从标准正态分布 \(N(0,1)\),即 \(y \overset{近似}{\sim} N(0,1)\)。
【核心巧思解读】为什么恰好选12个均匀分布随机数?
因为12个 \(U(0,1)\) 变量和的方差恰好为1,减去均值6后,无需再除以标准差,直接得到标准化的变量,最大化简化了计算量;同时均匀分布是对称分布,n=12时,和的分布已经与标准正态分布高度贴合,尾部精度也能满足绝大多数工程模拟的需求,是「计算量」与「近似精度」的最优平衡。
步骤3:生成任意正态分布随机数
计算 \(z = \mu + \sigma y\),可将 \(z\) 看作正态分布 \(N(\mu,\sigma^2)\) 的随机数。
原理推导:
根据正态分布的线性变换性质:若 \(Y \sim N(0,1)\),则对任意常数 \(\mu, \sigma>0\),有 \(Z = \mu + \sigma Y \sim N(\mu,\sigma^2)\)。
- 期望:\(E(Z) = E(\mu + \sigma Y) = \mu + \sigma E(Y) = \mu\)
- 方差:\(Var(Z) = Var(\mu + \sigma Y) = \sigma^2 Var(Y) = \sigma^2\)
完全匹配目标正态分布 \(N(\mu,\sigma^2)\) 的数字特征。
步骤4:批量生成随机数
重复步骤(1)-(3) n次,即可得到 \(N(\mu,\sigma^2)\) 分布的n个随机数。
四、方法总结
- 优点:原理直观、代码实现简单,无需复杂的函数计算,是入门级正态随机数生成的首选方法;
- 局限:n=12时,分布的极端尾部与标准正态有微小偏差,若需要极高精度的尾部采样,可增加n(如n=24),或搭配Box-Muller变换使用;
- 应用:至今仍是统计软件、仿真工具中生成正态随机数的基础方法之一,广泛应用于金融仿真、工程可靠性分析、机器学习采样等场景。
例4.4.4 数值计算中的误差分析
一、背景与应用价值
在科学计算、工程测量、数据处理中,我们无法存储无限位的小数,必须通过四舍五入保留有限位小数,由此产生的舍入误差不可避免。当我们对n个数做求和运算时,单个微小的舍入误差会不断累计,如何科学估计总误差的范围,是数值计算的核心问题。
传统的「最坏情况估计」过于保守,完全不符合实际;而中心极限定理给了我们带概率置信度的、符合实际的误差量化方法,不仅能给出总误差的上限,还能说明“这个上限成立的概率有多大”。
二、核心原理铺垫
1. 误差定义
设实数的真实值为 \(x_i\),保留k位小数后的近似值为 \(x_i'\),则单个舍入误差为:
n个数求和的总误差为:
2. 单个误差的分布假设
若计算中保留k位小数,第k+1位四舍五入,则舍入误差的取值范围为:
同时,每个数的舍入误差相互独立,无理由偏向正值或负值,因此可认为 \(\varepsilon_i\) 服从该区间上的均匀分布,即:
3. 单个误差的数字特征
对于均匀分布 \(U(a,b)\),期望为 \(\frac{a+b}{2}\),方差为 \(\frac{(b-a)^2}{12}\),代入得:
- 期望:\(E(\varepsilon_i) = \frac{-a + a}{2} = 0\)(舍入误差无系统偏差,正负概率均等)
- 方差:\(Var(\varepsilon_i) = \frac{(a - (-a))^2}{12} = \frac{(2a)^2}{12} = \frac{4a^2}{12} = \frac{a^2}{3}\)
将 \(a=0.5 \times 10^{-k}\) 代入方差公式:
4. 总误差的数字特征
根据期望与方差的性质(独立随机变量方差可加):
- 总误差期望:\(E\left(\sum_{i=1}^n \varepsilon_i\right) = \sum_{i=1}^n E(\varepsilon_i) = 0\)
- 总误差方差:\(Var\left(\sum_{i=1}^n \varepsilon_i\right) = \sum_{i=1}^n Var(\varepsilon_i) = \frac{n \times 10^{-2k}}{12}\)
三、两种误差估计方法的对比
1. 粗糙的最坏情况估计
教材中(4.4.2)式的估计逻辑:单个误差的绝对值最大为 \(0.5 \times 10^{-k}\),因此n个误差的和的绝对值最大为 \(n \times 0.5 \times 10^{-k}\),即:
【缺陷解读】这个估计是极端保守的“最坏情况”:假设所有n个误差都取到最大值,且全部为正或全部为负。这种情况的概率极低(n=100时,概率仅为 \(2 \times 10^{-30}\)),完全不符合实际工程场景,会严重高估误差,没有实用价值。
2. 基于中心极限定理的精细估计
核心逻辑
\(\{\varepsilon_i\}\) 独立同分布,且方差存在,完全满足林德伯格-莱维中心极限定理的条件。因此当n充分大时,总误差 \(\sum_{i=1}^n \varepsilon_i\) 近似服从正态分布:
概率推导
我们要计算「总误差的绝对值不超过z」的概率 \(P\left( \left| \sum_{i=1}^n \varepsilon_i \right| \leq z \right)\),对总误差做标准化处理:
\(Z\) 近似服从标准正态分布 \(N(0,1)\)。
将概率转化为标准正态分布的形式:
根据标准正态分布的对称性 \(\Phi(-x) = 1 - \Phi(x)\),化简得:
与教材公式完全一致。
带置信度的误差上限计算
工程中通常需要99%的概率保证(置信度99%),即令上式右边的概率等于0.99:
化简得:
查标准正态分布表,0.995对应的双侧99%置信度分位数为2.576,因此:
解出误差上限z:
计算常数项:\(\frac{2.576}{\sqrt{12}} \approx \frac{2.576}{3.4641} \approx 0.7436\),因此:
即我们有99%的把握保证:
实例对比(教材案例)
当保留5位小数(k=5),计算10000个数的和(n=10000)时:
- 粗糙最坏估计:\(10000 \times 0.5 \times 10^{-5} = 0.05\)
- 中心极限定理99%置信度估计:\(0.7436 \times \sqrt{10000} \times 10^{-5} = 0.7436 \times 100 \times 10^{-5} = 0.0007436\)
两者相差近70倍!中心极限定理的估计完全符合实际计算的误差情况,既科学又精准。
四、方法总结
- 核心价值:打破了“最坏情况估计”的保守性,通过中心极限定理量化了累计误差的概率分布,给出了带置信度的误差上限,是数值计算精度评估、工程测量误差分析的核心工具;
- 适用场景:科学计算、有限元分析、测量数据处理、金融估值等所有涉及多步累计运算的场景;
- 拓展性:该方法可推广到乘法、积分等更复杂的数值运算的误差分析,是计算数学的基础理论之一。
两个例题的共性总结
两个例题均完美落地了林德伯格-莱维中心极限定理的核心逻辑:无论原始分布是什么,只要独立同分布、方差存在,n充分大时,随机变量和的分布就近似服从正态分布。
- 正态随机数生成:利用均匀分布和的正态近似,解决了“从基础分布生成目标正态分布”的问题;
- 误差分析:利用舍入误差和的正态近似,解决了“累计误差的量化与概率评估”的问题。
这也正是中心极限定理的伟大之处:它不仅是概率论的核心理论,更是贯穿统计、计算、工程、金融等几乎所有量化领域的实用工具。
棣莫弗-拉普拉斯中心极限定理(二项分布的正态近似)深度讲解
这部分内容是林德伯格-莱维独立同分布中心极限定理最重要的特例,也是概率论历史上第一个被提出的中心极限定理,核心解决了「n很大时二项分布计算复杂度极高」的痛点,是离散分布大样本近似的核心工具。下面我们从定理推导、核心内涵、连续性修正、适用场景到归纳总结,进行完整细致的讲解。
一、定理的背景与核心定位
- 历史地位:该定理由棣莫弗于1733年针对p=0.5的对称二项分布首次提出,后由拉普拉斯推广到0<p<1的一般情况,是概率论历史上第一个中心极限定理,开创了大样本统计分析的先河。
- 本质定位:它是林德伯格-莱维中心极限定理在伯努利试验场景下的直接推论,专门针对二项分布,因此也被称为「二项分布的正态近似定理」。
- 解决的核心问题:二项分布的精确概率计算需要求解组合数 \(C_n^k p^k q^{n-k}\),当n很大时(如n>100),组合数计算量极大、甚至无法实现,该定理给出了用正态分布近似计算二项分布概率的简便方法。
二、定理完整表述与严格推导
2.1 定理完整表述
定理4.4.2(棣莫弗-拉普拉斯 de Moivre-Laplace 中心极限定理)
设n重伯努利试验中,事件A在每次试验中出现的概率为 \(p\)(\(0<p<1\)),记 \(S_n\) 为n次试验中事件A出现的次数,则 \(S_n \sim b(n,p)\)(二项分布)。
记标准化随机变量
则对任意实数 \(y\),有
其中 \(\Phi(y)\) 是标准正态分布 \(N(0,1)\) 的分布函数。
2.2 完整推导(基于林德伯格-莱维定理)
该定理的推导完全承接上一节的独立同分布中心极限定理,逻辑非常简洁:
步骤1:将二项分布拆分为独立伯努利变量之和
n重伯努利试验中,事件A发生的次数 \(S_n\),可以等价表示为n个独立同分布的伯努利指示变量之和:
其中 \(X_i\) 为第i次试验的指示变量:
步骤2:计算单个伯努利变量的数字特征
对于伯努利分布 \(X_i \sim B(1,p)\),其期望和方差为:
- 数学期望:\(E(X_i) = 1 \times p + 0 \times (1-p) = p\)
- 方差:\(Var(X_i) = E(X_i^2) - [E(X_i)]^2 = p - p^2 = p(1-p) = pq > 0\)(因 \(0<p<1\))
步骤3:验证林德伯格-莱维定理的适用条件
\(\{X_i\}\) 满足:
- 相互独立;
- 服从同一伯努利分布;
- 存在有限的期望 \(p\) 和正的方差 \(pq\)。
完全符合林德伯格-莱维中心极限定理的所有前提条件。
步骤4:推导标准化变量与极限结论
根据期望与方差的可加性,\(S_n\) 的数字特征为:
- 期望:\(E(S_n) = E\left(\sum_{i=1}^n X_i\right) = np\)
- 方差:\(Var(S_n) = Var\left(\sum_{i=1}^n X_i\right) = npq\)
对 \(S_n\) 做标准化处理,得到:
根据林德伯格-莱维定理,当 \(n \to \infty\) 时,\(Y_n^*\) 的分布函数收敛于标准正态分布的分布函数,即:
定理得证。
2.3 大样本近似结论
当n充分大时,我们可以得到两个核心的近似分布:
- 标准化变量:\(\frac{S_n - np}{\sqrt{npq}} \overset{近似}{\sim} N(0,1)\)
- 原始二项变量:\(S_n \overset{近似}{\sim} N(np, npq)\)
三、核心应用前提:连续性修正
3.1 为什么必须做连续性修正?
这是二项分布正态近似中最关键、最容易出错的点,核心原因是离散分布与连续分布的本质差异:
- 二项分布是离散型分布:\(S_n\) 只能取整数 \(0,1,2,\dots,n\),概率是「点概率」\(P(S_n=k)\),对应概率质量函数的单点取值;
- 正态分布是连续型分布:概率是密度函数在区间上的积分,单点的概率恒为0,只有区间才有概率意义。
当用连续的正态分布近似离散的二项分布时,直接用整数区间计算会产生显著误差。我们需要把离散的整数点,对应到连续数轴上的区间:整数k对应连续区间 \([k-0.5, k+0.5]\),这个转化就是连续性修正,能极大提升近似精度。
3.2 两种核心场景的修正方法与实例验证
场景1:区间概率的修正(最常用)
修正规则:若 \(k_1, k_2\) 均为整数,且 \(k_1 < k_2\),则
再用正态分布近似:
教材实例验证:
设 \(S_n \sim b(25, 0.4)\),则 \(np=25 \times 0.4=10\),\(npq=25 \times 0.4 \times 0.6=6\),\(\sqrt{6} \approx 2.449\),求 \(P(5 \leq S_n \leq 15)\)。
- 精确值:0.9780
- 修正后的正态近似:\[\begin{align*} P(5 \leq S_n \leq 15) &= P(4.5 < S_n < 15.5) \\ &\approx \Phi\left( \frac{15.5 - 10}{\sqrt{6}} \right) - \Phi\left( \frac{4.5 - 10}{\sqrt{6}} \right) \\ &= \Phi(2.245) - \Phi(-2.245) \\ &= 2\Phi(2.245) - 1 = 0.9754 \end{align*} \]与精确值的误差仅为0.0026,精度极高。
- 不修正的正态近似:\[P(5 \leq S_n \leq 15) \approx \Phi\left( \frac{15 - 10}{\sqrt{6}} \right) - \Phi\left( \frac{5 - 10}{\sqrt{6}} \right) = 2\Phi(2.041) - 1 = 0.9588 \]与精确值的误差达0.0192,是修正后误差的7倍以上,偏差显著。
场景2:单点概率的修正
修正规则:对于整数k,离散单点的概率对应连续区间的积分:
正态近似公式:
当n充分大时,区间长度为1,可进一步简化为正态密度近似公式(教材4.4.4式):
本质是用标准正态密度函数在中点的取值,乘以区间长度1,再除以标准差,计算更简便。
教材实例验证:
设 \(S_n \sim b(25, 0.4)\),求 \(P(S_n=10)\)。
- 精确值:0.1612
- 简化近似公式计算:\[P(S_n=10) \approx \frac{1}{\sqrt{2\pi \times 6}} e^{-\frac{(10-10)^2}{12}} = \frac{1}{\sqrt{12\pi}} \approx 0.1629 \]与精确值的误差仅为0.0017,几乎完全一致。
四、二项分布的两种近似方法对比
二项分布有两种经典的大样本近似:正态近似(棣莫弗-拉普拉斯定理) 和 泊松近似(泊松定理),两者的适用场景完全不同,我们用表格清晰区分:
| 对比维度 | 正态近似(棣莫弗-拉普拉斯定理) | 泊松近似(泊松定理) |
|---|---|---|
| 核心适用条件 | n大,p不接近0或1,满足 \(np>5\) 且 \(n(1-p)>5\) | n大,p很小(接近0),满足 \(np \leq 5\)(λ=np适中) |
| 极限分布 | 正态分布 \(N(np, npq)\) | 泊松分布 \(P(\lambda=np)\) |
| 分布特征 | 针对对称/轻度偏态的二项分布,n越大近似效果越好 | 针对高度偏态的稀有事件二项分布,p越小近似效果越好 |
| 计算复杂度 | 仅需查标准正态分布表,计算极简便 | 需计算泊松分布列,小λ时计算简便 |
| 典型应用场景 | 抽样调查的比例估计、大样本比例检验、合格率计算 | 稀有事件概率计算、不合格品率极低的质量控制、灾难事件统计 |
五、知识点归纳总结表格
表1 棣莫弗-拉普拉斯中心极限定理核心信息
| 项目 | 详细内容 |
|---|---|
| 定理全称 | 棣莫弗-拉普拉斯(de Moivre-Laplace)中心极限定理 |
| 适用对象 | n重伯努利试验中的二项分布 \(S_n \sim b(n,p)\),\(0<p<1\) |
| 核心前提 | 试验次数n充分大,满足 \(np>5\) 且 \(n(1-p)>5\)(保证近似精度) |
| 标准化变量 | \(Y_n^* = \frac{S_n - np}{\sqrt{npq}}\),其中 \(q=1-p\),\(E(Y_n^*)=0\),\(Var(Y_n^*)=1\) |
| 极限结论 | 对任意实数y,\(\lim_{n \to \infty} P(Y_n^* \leq y) = \Phi(y)\),即标准化变量依分布收敛于标准正态分布 \(N(0,1)\) |
| 大样本近似 | 当n充分大时: 1. \(S_n \overset{近似}{\sim} N(np, npq)\) 2. 样本比例 \(\hat{p} = \frac{S_n}{n} \overset{近似}{\sim} N\left(p, \frac{pq}{n}\right)\) |
| 核心价值 | 解决了大n下二项分布精确计算复杂度极高的问题,是抽样调查、比例检验、质量控制的核心理论基础 |
表2 连续性修正方法汇总
| 待求概率 | 修正后的等价形式 | 正态近似公式 |
|---|---|---|
| \(P(S_n \leq k)\) | \(P(S_n < k + 0.5)\) | \(\Phi\left( \frac{k + 0.5 - np}{\sqrt{npq}} \right)\) |
| \(P(S_n \geq k)\) | \(P(S_n > k - 0.5)\) | \(1 - \Phi\left( \frac{k - 0.5 - np}{\sqrt{npq}} \right)\) |
| \(P(k_1 \leq S_n \leq k_2)\) | \(P(k_1 - 0.5 < S_n < k_2 + 0.5)\) | \(\Phi\left( \frac{k_2 + 0.5 - np}{\sqrt{npq}} \right) - \Phi\left( \frac{k_1 - 0.5 - np}{\sqrt{npq}} \right)\) |
| \(P(S_n = k)\) | \(P(k - 0.5 < S_n < k + 0.5)\) | \(\Phi\left( \frac{k + 0.5 - np}{\sqrt{npq}} \right) - \Phi\left( \frac{k - 0.5 - np}{\sqrt{npq}} \right)\),或简化密度公式 |
六、核心注意事项
- 修正的必要性:当n较小、或区间靠近分布两端时,不做连续性修正会产生极大误差,所有二项分布的正态近似计算,都必须做连续性修正;
- 适用边界:当p极接近0或1时,哪怕n很大,二项分布仍高度偏态,正态近似效果差,应优先使用泊松近似;
- 样本量要求:通常n≥30时可获得较好的近似效果,p越接近0.5,所需n越小;p越接近0或1,所需n越大。
棣莫弗-拉普拉斯中心极限定理三类核心应用 深度讲解与完整推导
棣莫弗-拉普拉斯中心极限定理的核心价值,是解决二项分布大样本下的三类经典计算问题,覆盖了概率计算、分位数设计、样本量确定三大核心场景,是可靠性分析、临床试验、资源配置、抽样调查等领域的基础计算工具。下面我们分模块逐一拆解通用解法、例题推导与核心要点。
一、第一类问题:给定n,y求β(求概率)
1.1 通用解法框架
这类问题的核心是:已知试验次数n、事件发生概率p、临界值y,求二项随机变量落在指定区间的概率,是最基础的应用场景。
通用解题步骤:
- 定义二项随机变量 \(Y_n \sim b(n,p)\),计算数字特征:期望 \(E(Y_n)=np\),方差 \(Var(Y_n)=npq\)(\(q=1-p\)),标准差 \(\sqrt{npq}\);
- 对所求概率的不等式做连续性修正(离散分布转连续分布的核心,必须执行);
- 对修正后的不等式做标准化,转化为标准正态分布的概率形式;
- 查标准正态分布表,计算最终概率 \(\beta\)。
1.2 例题完整推导
例4.4.5 系统可靠性计算
题意:复杂系统由100个相互独立的部件组成,每个部件正常工作的概率为0.9;系统正常工作的条件是至少85个部件正常工作,求系统正常工作的概率。
完整推导:
步骤1:定义随机变量
设 \(Y_n\) 为100个部件中正常工作的数量,每个部件为独立伯努利试验,因此 \(Y_n \sim b(n=100, p=0.9)\)。
步骤2:计算数字特征
步骤3:概率不等式与连续性修正
系统正常工作的条件为 \(Y_n \geq 85\),即求 \(P(Y_n \geq 85)\)。
离散型随机变量的“\(Y_n \geq 85\)”等价于“\(Y_n > 84\)”,根据连续性修正规则,对应连续区间的“\(Y_n > 85-0.5=84.5\)”,因此:
步骤4:标准化与概率计算
根据中心极限定理,\(Y_n\) 近似服从正态分布 \(N(90,9)\),标准化后 \(Z = \frac{Y_n - np}{\sqrt{npq}} \overset{近似}{\sim} N(0,1)\),因此:
利用标准正态分布的对称性 \(P(Z > -a) = \Phi(a)\),查标准正态分布表得 \(\Phi(1.83)=0.9664\),因此系统正常工作的概率约为0.9664。
易错点提醒:若忘记连续性修正,直接用85标准化得到 \(Z=-1.67\),计算得 \(\Phi(1.67)=0.9525\),与正确值误差超1%,因此连续性修正必须执行。
例4.4.6 药品临床试验通过率计算
题意:某药品声称治愈率80%,抽取100名患者试验,至少75人治愈则通过检验。分别计算:(1)实际治愈率80%;(2)实际治愈率70%时,药品通过检验的概率。
完整推导:
设 \(Y_n\) 为100名患者中的治愈人数,\(Y_n \sim b(n=100, p)\),所求概率为 \(P(Y_n \geq 75)\)。
情况(1) 实际治愈率 \(p=0.8\)
步骤1:计算数字特征
步骤2:连续性修正与标准化
步骤3:概率计算
\(P(Z>-1.375)=\Phi(1.375)=0.9155\),即药品通过检验的概率为91.55%,通过概率较高。
情况(2) 实际治愈率 \(p=0.7\)
步骤1:计算数字特征
步骤2:连续性修正与标准化
步骤3:概率计算
\(P(Z>0.982)=1-\Phi(0.982)=1-0.8370=0.1630\),即药品通过检验的概率仅为16.30%,通过概率极低。
核心解读:该例题体现了中心极限定理在假设检验中的核心作用——实际疗效不达标的药品,通过检验的概率极低,验证了检验规则的有效性。
二、第二类问题:给定n,β求y(求分位数)
2.1 通用解法框架
这类问题的核心是:已知试验次数n、事件概率p、目标概率β,求满足 \(P(Y_n \leq y) \geq \beta\) 的临界值y,本质是求二项分布的β分位数,常用于资源配置、保障能力设计等场景。
通用解题步骤:
- 定义二项随机变量 \(Y_n \sim b(n,p)\),计算期望 \(np\)、方差 \(npq\)、标准差 \(\sqrt{npq}\);
- 写出概率不等式,执行连续性修正;
- 标准化,转化为标准正态分布的分位数问题;
- 查标准正态分布表,得到对应β的分位数 \(z_\beta\)(满足 \(\Phi(z_\beta)=\beta\));
- 解不等式得到临界值y,向上取整(资源、数量均为正整数)。
2.2 例题完整推导
例4.4.7 车间供电量设计
题意:车间有200台同型号机床,每台机床一小时内约70%的时间处于工作状态,各机床工作相互独立;工作时每台机床耗电15kW。问至少需要多少电能,才能以95%的概率保证车间正常生产。
完整推导:
步骤1:定义随机变量
设 \(Y_n\) 为200台机床中同时工作的机床数,每台机床为独立伯努利试验,因此 \(Y_n \sim b(n=200, p=0.7)\)。
步骤2:计算数字特征
步骤3:建立概率不等式
总耗电量为 \(15Y_n\) kW,设供电量为 \(y\) kW,正常生产的条件为总耗电量不超过供电量,要求该事件的概率≥95%,即:
等价于 \(P(Y_n \leq y/15) \geq 0.95\)。
步骤4:连续性修正与标准化
离散型的“\(Y_n \leq y/15\)”对应连续区间的“\(Y_n < y/15 + 0.5\)”,标准化后:
步骤5:查分位数与解不等式
标准正态分布中,\(\Phi(z)=0.95\) 对应的单侧分位数为 \(z=1.645\),因此:
代入 \(\sqrt{42}\approx6.4807\) 计算:
供电量需为整数,且需满足95%的概率要求,因此向上取整,至少需要2253kW的电能。
核心解读:该例题是典型的资源配置问题,用中心极限定理可科学计算最小资源量,既保障生产需求,又避免过度配置造成的浪费。
三、第三类问题:给定y,β求n(求样本量)
3.1 通用解法框架
这类问题是抽样调查的核心问题,核心是:已知允许的误差范围y、目标置信度β,求满足要求的最小样本量n,广泛应用于收视率调查、民意调查、市场调研等场景。
通用解题步骤:
- 定义伯努利随机变量,建立样本比例与总体比例的误差不等式;
- 利用中心极限定理,将概率不等式转化为标准正态分布形式;
- 查对应置信度β的标准正态分位数;
- 解不等式得到样本量n的表达式;
- 利用 \(p(1-p) \leq 0.25\) 的最大值做保守估计,得到最小样本量,向上取整。
3.2 例题完整推导
例4.4.8 收视率调查样本量计算
题意:用样本收视率 \(\hat{p}=Y_n/n\) 估计真实收视率p,要求有90%的把握,使得估计值与真实p的差异不超过5%,求至少需要调查多少个对象。
完整推导:
步骤1:定义随机变量
设调查n个对象,第i个对象的收视情况用伯努利变量表示:
\(X_i\) 独立同分布,\(P(X_i=1)=p\),\(P(X_i=0)=1-p\)。
设 \(Y_n\) 为n个对象中收看节目的总人数,\(Y_n = \sum_{i=1}^n X_i \sim b(n,p)\),样本收视率 \(\hat{p}=Y_n/n\)。
步骤2:建立概率不等式
要求有90%的把握满足 \(|\hat{p} - p| \leq 0.05\),即:
步骤3:标准化与化简
\(\hat{p}\) 的期望为p,方差为 \(\frac{p(1-p)}{n}\),对不等式标准化:
根据中心极限定理,标准化变量近似服从 \(N(0,1)\),利用标准正态分布的对称性 \(P(|Z| \leq a)=2\Phi(a)-1\),化简得:
步骤4:查分位数与解不等式
\(\Phi(z)=0.95\) 对应的分位数为 \(z=1.645\),因此:
两边平方整理得:
步骤5:保守估计最小样本量
真实收视率p未知,因此需要做最保守的估计:函数 \(f(p)=p(1-p)\) 是开口向下的二次函数,最大值在 \(p=0.5\) 时取得,\(f(0.5)=0.25\),即 \(p(1-p) \leq 0.25\) 对所有 \(0<p<1\) 成立。
代入最大值计算:
样本量需为整数,向上取整,至少需要调查271个对象。
核心解读:保守估计是抽样调查的核心原则,用 \(p=0.5\) 的最大值计算,可保证无论真实p是多少,样本量都能满足误差与置信度要求,是行业通用的标准方法。
四、三类应用核心汇总与关键注意事项
4.1 三类应用汇总表
| 问题类型 | 已知条件 | 求解目标 | 核心应用场景 | 关键步骤 | 核心注意事项 |
|---|---|---|---|---|---|
| 已知n,y求β | 试验次数n、事件概率p、临界值y | 事件发生的概率β | 可靠性计算、通过率评估、风险分析 | 1. 定义二项变量,计算数字特征 2. 连续性修正 3. 标准化 4. 查正态表计算概率 |
必须执行连续性修正,否则误差极大 |
| 已知n,β求y | 试验次数n、事件概率p、目标概率β | 满足概率要求的临界值y | 资源配置、保障阈值设计、容量规划 | 1. 定义二项变量,计算数字特征 2. 建立概率不等式,连续性修正 3. 查对应分位数 4. 解不等式,向上取整 |
临界值需向上取整,保证概率满足要求 |
| 已知y,β求n | 允许误差范围y、目标置信度β | 最小调查样本量n | 抽样调查、民意调研、参数估计 | 1. 建立误差概率不等式 2. 标准化,查对应分位数 3. 解出n的表达式 4. 保守估计,向上取整 |
必须用 \(p(1-p)≤0.25\) 做保守估计,保证未知p时样本量有效 |
4.2 通用关键注意事项
- 连续性修正铁律:所有二项分布的正态近似计算,必须执行连续性修正;n越小、临界值越靠近分布两端,修正的必要性越强。
- 分位数选择规则:单侧概率用单侧分位数(如95%概率用1.645),双侧置信区间用双侧分位数(如95%置信度用1.96)。
- 适用前提:所有近似计算需满足 \(np>5\) 且 \(n(1-p)>5\),否则正态近似效果差,应优先使用泊松近似或精确计算。
- 样本量保守原则:总体比例p未知时,必须用 \(p=0.5\) 做保守估计,避免样本量不足导致误差超标。
独立不同分布下的中心极限定理 深度讲解与完整推导
各位同学,前面我们讲解的林德伯格-莱维中心极限定理,是建立在「独立同分布」的强假设之上的。但在现实问题中,我们遇到的绝大多数场景,都是「独立但不同分布」的随机变量叠加:比如最经典的测量误差,它是机床振动、刀具磨损、环境温湿度、操作波动等无数个独立的微小随机因素叠加的结果,这些因素的分布类型、方差大小都可能不同,不可能满足「同分布」的要求。
本节我们要讲解的林德伯格中心极限定理和李雅普诺夫中心极限定理,是中心极限定理最一般的形式,它们彻底回答了:独立不同分布的随机变量和,在什么条件下,其极限分布仍是正态分布,也从根本上揭示了正态分布在自然界中无处不在的核心原因。
一、核心问题与核心思想
1.1 核心问题
设 \(\{X_n\}\) 是相互独立但不一定同分布的随机变量序列,每个 \(X_i\) 都有有限的期望 \(E(X_i)=\mu_i\) 和方差 \(Var(X_i)=\sigma_i^2>0\),记和为 \(Y_n = \sum_{i=1}^n X_i\)。我们要研究:当 \(n \to \infty\) 时,\(Y_n\) 的标准化变量的分布,是否收敛到标准正态分布 \(N(0,1)\)。
1.2 标准化铺垫
和同分布的情况一致,我们先对 \(Y_n\) 做标准化处理,消除均值和方差随n增大的漂移与发散:
- 和的期望:\(E(Y_n) = E\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \mu_i\)
- 和的方差:\(Var(Y_n) = Var\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \sigma_i^2\)(独立性保证方差可加)
- 记总方差的平方根为 \(B_n = \sqrt{Var(Y_n)} = \sqrt{\sum_{i=1}^n \sigma_i^2}\),称为总标准差。
则 \(Y_n\) 的标准化变量为:
显然 \(E(Y_n^*)=0\),\(Var(Y_n^*)=1\),我们的目标是研究 \(Y_n^*\) 的极限分布是否为标准正态分布。
1.3 核心思想:所有项必须“均匀地小”
要让独立不同分布的随机变量和的极限分布是正态分布,必须满足一个核心要求:和的每一项,在概率意义下都必须是“均匀地小”,不能有任何一项对总和起主导、决定性的作用。
我们用一个反例就能理解:如果从第二项开始,所有 \(X_i=0\),那么 \(Y_n=X_1\),极限分布完全由 \(X_1\) 的分布决定,不可能收敛到正态分布。这就是因为 \(X_1\) 起了绝对主导作用,其他项的贡献为0,不满足“均匀地小”的要求。
二、林德伯格条件:“均匀地小”的数学表达
我们需要把“所有项均匀地小”这个直观要求,转化为严格的数学条件,也就是林德伯格条件。下面我们一步步推导这个条件的由来。
2.1 直观的概率条件
要让每一项 \((X_i - \mu_i)/B_n\) 都足够小,等价于:对任意给定的 \(\tau>0\)(无论多小),最大的那一项的绝对值超过 \(\tau\) 的概率,当 \(n \to \infty\) 时趋于0,即:
等价于:
2.2 从直观条件到林德伯格条件
根据布尔不等式(并集的概率≤各事件概率之和),我们有:
对于连续型随机变量 \(X_i\),设其密度函数为 \(p_i(x)\),则:
在积分区域 \(|x-\mu_i| > \tau B_n\) 中,显然有 \(\frac{(x-\mu_i)^2}{\tau^2 B_n^2} > 1\),因此我们可以对被积函数做放大:
代入积分得:
对所有i求和,代入布尔不等式的结果,得:
因此,只要对任意的 \(\tau>0\),满足:
就能保证“所有项均匀地小”的直观要求成立。这个式子就是林德伯格条件。
2.3 林德伯格条件的内涵解读
林德伯格条件的本质是:每个随机变量的方差,在总方差 \(B_n^2\) 中的占比,都随着n增大而趋于0。
积分项是每个 \(X_i\) 在“远离均值”的尾部的二阶矩,也就是尾部方差。林德伯格条件要求,所有变量的尾部方差之和,在总方差中的占比趋于0,意味着没有任何一个变量的方差能主导总方差,所有变量对总和的贡献都是微小的、均等的,这正是正态分布形成的核心前提。
三、林德伯格中心极限定理
3.1 定理完整表述
定理4.4.3(林德伯格中心极限定理)
设独立随机变量序列 \(\{X_n\}\) 满足林德伯格条件,则对任意的实数x,有:
其中 \(\Phi(x)\) 是标准正态分布 \(N(0,1)\) 的分布函数。
3.2 定理核心解读
- 普适性:这是中心极限定理最一般的形式,它完全去掉了“同分布”的限制,仅要求独立性、有限的期望方差,以及林德伯格条件,适用范围极广。
- 正态分布的根源:这个定理彻底解释了正态分布的普遍性——无论各个随机因素服从什么分布,只要它们相互独立、每个因素的影响都足够微小,没有主导因素,它们的叠加结果就必然近似服从正态分布。
- 特例包含:我们之前学习的林德伯格-莱维独立同分布中心极限定理,是林德伯格定理的特例,下面我们给出严格证明。
3.3 严格证明:独立同分布场景满足林德伯格条件
设 \(\{X_n\}\) 是独立同分布的随机变量序列,每个 \(X_i\) 的期望为 \(\mu\),方差为 \(\sigma^2>0\),我们来验证它满足林德伯格条件。
步骤1:计算总方差
同分布下,每个 \(\sigma_i^2=\sigma^2\),因此总方差:
步骤2:代入林德伯格条件
林德伯格条件的左边为:
同分布下,\(\mu_i=\mu\),\(p_i(x)=p(x)\),因此求和项的每一项都相同,n个相同项求和后:
步骤3:求极限
因为方差存在,即 \(\int_{-\infty}^\infty (x-\mu)^2 p(x) dx = \sigma^2 < \infty\),这意味着二阶矩的尾部积分是收敛的。当 \(n \to \infty\) 时,积分区域 \(|x-\mu| > \tau \sigma\sqrt{n}\) 会不断向无穷远处延伸,最终趋向空集,因此尾部积分:
因此林德伯格条件的左边极限为0,满足林德伯格条件。这就证明了,独立同分布且方差存在的序列,必然满足林德伯格条件,林德伯格-莱维定理是林德伯格定理的特例。
四、李雅普诺夫中心极限定理
林德伯格条件是中心极限定理成立的核心条件,但它的验证需要计算尾部积分,在实际应用中非常不便。因此,俄罗斯数学家李雅普诺夫给出了一个更容易验证的充分条件,只需要用到随机变量的高阶矩,无需计算积分,极大地提升了中心极限定理的实用性。
4.1 李雅普诺夫条件
设独立随机变量序列 \(\{X_n\}\),每个 \(X_i\) 有期望 \(\mu_i\),方差 \(\sigma_i^2>0\),总标准差 \(B_n=\sqrt{\sum_{i=1}^n \sigma_i^2}\)。若存在某个常数 \(\delta>0\),使得:
则称该序列满足李雅普诺夫条件。
4.2 定理完整表述
定理4.4.4(李雅普诺夫中心极限定理)
设独立随机变量序列 \(\{X_n\}\) 满足李雅普诺夫条件,则对任意的实数x,有:
4.3 定理核心解读
- 实用性:李雅普诺夫条件仅要求计算随机变量的2+δ阶矩(最常用的是δ=1,即三阶绝对矩),无需计算复杂的尾部积分,在实际工程、统计计算中极易验证,是独立不同分布场景下最常用的中心极限定理。
- 充分性:李雅普诺夫条件是林德伯格条件的充分非必要条件——满足李雅普诺夫条件,必然满足林德伯格条件;但满足林德伯格条件,不一定满足李雅普诺夫条件。
- 直观意义:李雅普诺夫条件要求,所有变量的高阶矩之和,在总标准差的高阶幂中的占比趋于0,本质上还是保证了每个变量的贡献都是微小的,没有主导项,和林德伯格条件的核心思想一致。
五、三大中心极限定理归纳总结与对比
我们把本节的两个一般形式定理,和之前的独立同分布定理,用表格做完整的归纳对比,清晰区分各自的适用场景、核心条件与特点。
| 定理名称 | 适用前提 | 核心条件 | 分布收敛结论 | 核心特点 | 典型应用场景 |
|---|---|---|---|---|---|
| 林德伯格-莱维中心极限定理(独立同分布CLT) | 1. 随机变量序列相互独立 2. 所有变量服从同一分布 3. 存在有限的期望μ和正方差σ² |
独立同分布+方差有限 | 标准化和依分布收敛于标准正态分布N(0,1) | 条件强,形式简洁,是最基础的CLT | 抽样调查、大样本均值估计、同分布随机变量和的概率计算 |
| 林德伯格中心极限定理(一般形式CLT) | 1. 随机变量序列相互独立 2. 每个变量存在有限的期望μ_i和正方差σ_i² |
林德伯格条件(尾部方差占比趋于0) | 标准化和依分布收敛于标准正态分布N(0,1) | 条件最弱、最一般的CLT,去掉了同分布限制,是CLT的核心形式 | 理论研究、解释正态分布的普适性、复杂多因素叠加的分布分析 |
| 李雅普诺夫中心极限定理(实用型一般CLT) | 1. 随机变量序列相互独立 2. 每个变量存在有限的期望μ_i和正方差σ_i² |
李雅普诺夫条件(存在δ>0,高阶矩占比趋于0) | 标准化和依分布收敛于标准正态分布N(0,1) | 条件易验证,实用性极强,是林德伯格条件的充分替代 | 工程误差分析、多源不同分布数据的叠加计算、非同质样本的大样本统计 |
六、核心结论与意义
- 中心极限定理的核心本质,不是“同分布”,而是大量独立、微小、无主导项的随机因素的叠加,必然产生正态分布。独立同分布只是其中一个最简单的特例。
- 林德伯格定理是中心极限定理的理论核心,它给出了独立不同分布下CLT成立的充要条件(林德伯格条件+费勒条件),彻底解决了“和的分布收敛到正态”的理论问题。
- 李雅普诺夫定理是中心极限定理的实用核心,它把复杂的积分条件转化为简单的矩条件,让CLT能真正落地到工程、统计、金融等实际场景中。
- 这两个定理,和之前的棣莫弗-拉普拉斯定理、林德伯格-莱维定理一起,构成了完整的中心极限定理体系,是概率论从古典走向现代的核心标志,也是数理统计、随机过程、计量经济学等几乎所有量化学科的基础理论。
李雅普诺夫中心极限定理应用例题 完整详解
本题是独立不同分布场景下中心极限定理的典型应用,完美落地了上一节讲解的李雅普诺夫定理,解决了「独立但不同分布的伯努利随机变量和的概率计算」问题,下面我们进行逐步骤的完整推导与解读。
一、题目核心分析
本题的核心特点决定了它无法使用之前的「独立同分布中心极限定理」,必须用一般形式的李雅普诺夫中心极限定理:
- 独立不同分布:每个题目对应一个独立的伯努利随机变量,但答对概率\(p_i\)随题号递增而递减,每个变量的分布参数不同,不满足「同分布」前提;
- 目标需求:计算99个独立不同分布伯努利变量的和≥60的概率,即学生通过考试的概率;
- 方法逻辑:先通过李雅普诺夫条件验证中心极限定理的适用性,再用正态分布近似计算目标概率。
二、步骤1:定义随机变量与分布
设第\(i\)题的答题结果为伯努利指示变量:
则\(\{X_i\}\)相互独立,服从参数为\(p_i\)的两点分布,其中:
我们要求的目标概率为:
三、步骤2:验证李雅普诺夫条件(定理适用前提)
李雅普诺夫中心极限定理的核心要求:对于独立随机变量序列,若存在\(\delta>0\),满足
其中\(\mu_i=E(X_i)\)为单个变量的期望,\(B_n = \sqrt{\sum_{i=1}^n Var(X_i)}\)为所有变量的总标准差,则标准化和的极限分布为标准正态分布。
本题取最常用的\(\delta=1\)(三阶绝对矩验证),分三步完成验证:
3.1 单个变量的基础数字特征
对于伯努利变量\(X_i\),直接计算得:
- 期望:\(\mu_i = E(X_i) = p_i\)
- 方差:\(Var(X_i) = p_i(1-p_i)\)
- 总标准差:\(B_n = \sqrt{\sum_{i=1}^n Var(X_i)} = \sqrt{\sum_{i=1}^n p_i(1-p_i)}\)
3.2 三阶绝对矩的不等式推导
\(X_i\)仅取0和1两个值,直接展开计算三阶绝对矩:
代入概率化简:
提取公因子\(p_i(1-p_i)\),进一步化简:
括号内的项满足:\((1-p_i)^2 + p_i^2 = 2\left(p_i-\frac{1}{2}\right)^2 + \frac{1}{2} \leq 1\)(平方项非负,最大值为1),因此得到关键不等式:
3.3 验证李雅普诺夫极限条件
将三阶矩的不等式代入李雅普诺夫条件的左侧:
根据总标准差的定义,\(B_n^2 = \sum_{i=1}^n p_i(1-p_i)\),因此\(\sum_{i=1}^n p_i(1-p_i) = B_n^2\),代入后化简得:
接下来分析\(B_n\)的极限:当\(n \to \infty\)时,\(i \leq 99\)时\(p_i(1-p_i) > 0\),求和项持续累加,因此\(B_n = \sqrt{\sum_{i=1}^n p_i(1-p_i)} \to \infty \ (n \to \infty)\),最终得:
完全满足李雅普诺夫条件,因此可以使用中心极限定理做正态近似。
补充说明:题目中“补充\(X_{100}\)及以后的变量与\(X_{99}\)同分布”,是因为李雅普诺夫定理针对无穷随机变量序列,本题仅99个变量,补充后构成无穷序列,满足定理的极限前提,且不影响n=99时的近似计算。
四、步骤3:计算n=99时的总期望与总方差
4.1 总期望计算
根据期望的线性可加性(无需独立性),总答对题数的期望为所有单题答对概率的和:
拆分求和,使用等差数列求和公式\(\sum_{i=1}^n i = \frac{n(n+1)}{2}\):
4.2 总方差计算
根据独立性,总方差为所有单题方差的和:
代入\(p_i=1-\frac{i}{100}\),\(1-p_i=\frac{i}{100}\),拆分求和,使用平方和公式\(\sum_{i=1}^n i^2 = \frac{n(n+1)(2n+1)}{6}\):
分别计算两项求和:
代入得最终总方差:
总标准差\(B_{99} = \sqrt{16.665} \approx 4.082\)。
五、步骤4:正态近似计算目标概率
根据李雅普诺夫中心极限定理,n充分大时,标准化的和近似服从标准正态分布\(N(0,1)\),即:
对目标概率做标准化变换:
计算标准化分位数:
利用标准正态分布的性质\(P(Z \geq a) = 1 - \Phi(a)\),查标准正态分布表得\(\Phi(2.57)=0.995\),因此:
补充说明:离散分布的正态近似严格来说需要做连续性修正,即\(P(\sum X_i \geq60) = P(\sum X_i >59.5)\),修正后标准化分位数约为2.45,计算得概率约为0.0071,与题目结果差异极小,因n=99已足够大,修正的影响可忽略。
六、最终结论与核心价值
最终结论
该学生通过考试的概率约为0.005(千分之五),通过的可能性极低。
核心原因:学生答对题数的期望仅为49.5题,远低于60题的及格线;且总标准差仅约4.08,答对题数的波动很小,60题对应偏离均值2.57个标准差,属于极端小概率事件。
本题的核心价值
这个例题完美体现了李雅普诺夫中心极限定理的实用意义:
- 突破了「同分布」的强限制,解决了独立不同分布随机变量和的概率计算问题;
- 李雅普诺夫条件仅需计算高阶矩,无需复杂的尾部积分,在实际工程、统计问题中极易验证和操作;
- 对于大量独立不同分布的伯努利变量(如不同难度的题目、不同概率的风险事件叠加),可通过正态近似快速计算概率,避免了复杂的组合数精确计算。
中心极限定理习题 全解精讲
本次8道习题均为中心极限定理的核心应用场景,分为两大类:
- 棣莫弗-拉普拉斯中心极限定理:针对二项分布(n重伯努利试验)的正态近似,核心是离散分布的连续化修正;
- 林德伯格-莱维中心极限定理:独立同分布随机变量和/均值的正态近似,适用于任意分布(只要期望、方差有限),是大样本统计的核心工具。
下面逐题进行知识点拆解与完整推导,每一步都标注核心逻辑与易错点。
习题1
【考点】
二项分布的分布列定义 + 棣莫弗-拉普拉斯中心极限定理(二项分布的正态近似)
【题干回顾】
某保险公司索赔户中被盗索赔户占20%,随机抽查100个索赔户,\(X\) 为其中被盗索赔的户数。
(1) 写出\(X\)的分布列;
(2) 求被盗索赔户不少于14户且不多于30户的概率近似值。
【详细解答与推导】
(1) 求\(X\)的分布列
每个索赔户是否为被盗索赔,是独立的伯努利试验:
- 单次试验“被盗索赔”的概率 \(p=0.2\),“非被盗索赔”的概率 \(q=1-p=0.8\);
- 100个索赔户对应100重独立伯努利试验,因此 \(X\) 服从二项分布,记为 \(X \sim b(n=100, p=0.2)\)。
二项分布的分布列为:
其中 \(\mathrm{C}_{100}^k = \frac{100!}{k!(100-k)!}\) 为组合数。
(2) 求概率近似值
我们需要计算 \(P(14 \leq X \leq 30)\),直接用二项分布计算组合数复杂度极高,因此用棣莫弗-拉普拉斯中心极限定理做正态近似。
步骤1:计算二项分布的数字特征
对于二项分布 \(X \sim b(n,p)\),期望和方差为:
标准差 \(\sqrt{Var(X)} = \sqrt{16} = 4\)。
步骤2:连续性修正(核心易错点)
\(X\) 是离散型随机变量,只能取整数;而正态分布是连续型分布,单点概率为0,因此必须做连续性修正,将离散区间转化为连续区间:
步骤3:标准化,转化为标准正态分布
根据棣莫弗-拉普拉斯定理,当\(n\)充分大时,标准化变量近似服从标准正态分布 \(N(0,1)\):
对修正后的不等式做标准化:
计算分位数:
因此概率转化为:
其中 \(\Phi(\cdot)\) 是标准正态分布的分布函数,利用对称性 \(\Phi(-x)=1-\Phi(x)\),查标准正态分布表得:
最终计算:
习题2
【考点】
二项分布的建模 + 棣莫弗-拉普拉斯中心极限定理
【题干回顾】
计算机主机有100个终端,每个终端80%的时间被使用,各终端独立,求至少有15个终端空闲的概率。
【详细解答与推导】
步骤1:定义随机变量,确定分布
设 \(X\) 为100个终端中空闲的终端数。
每个终端“空闲”的概率 \(p=1-0.8=0.2\),各终端独立,因此 \(X \sim b(n=100, p=0.2)\)。
目标概率为 \(P(X \geq 15)\)。
步骤2:计算数字特征
步骤3:连续性修正
离散型的 \(X \geq 15\) 对应连续区间的 \(X > 14.5\),即:
步骤4:标准化与概率计算
利用标准正态分布性质 \(P(Z > -a) = \Phi(a)\),查得 \(\Phi(1.375) \approx 0.9154\),因此:
习题3
【考点】
二项分布建模 + 棣莫弗-拉普拉斯中心极限定理
【题干回顾】
木柱中80%长度不小于3m,随机取100根,求其中至少有30根短于3m的概率。
【详细解答与推导】
步骤1:定义随机变量,确定分布
设 \(X\) 为100根木柱中短于3m的数量。
单根木柱“短于3m”的概率 \(p=1-0.8=0.2\),各木柱独立,因此 \(X \sim b(n=100, p=0.2)\)。
目标概率为 \(P(X \geq 30)\)。
步骤2:计算数字特征
步骤3:连续性修正
步骤4:标准化与概率计算
利用性质 \(P(Z > a) = 1 - \Phi(a)\),查得 \(\Phi(2.375) \approx 0.9912\),因此:
习题4
【考点】
林德伯格-莱维中心极限定理(独立同分布均值的正态近似)
【题干回顾】
掷一颗骰子100次,\(X_i\) 为第\(i\)次掷出的点数,均值 \(\bar{X} = \frac{1}{100}\sum_{i=1}^{100}X_i\),求 \(P(3 \leq \bar{X} \leq 4)\)。
【详细解答与推导】
步骤1:计算单个骰子点数的期望与方差
骰子点数 \(X_i\) 服从1~6的离散均匀分布,每个点数概率为\(\frac{1}{6}\):
- 期望:\[E(X_i) = \frac{1+2+3+4+5+6}{6} = 3.5 \]
- 二阶矩:\[E(X_i^2) = \frac{1^2+2^2+3^2+4^2+5^2+6^2}{6} = \frac{91}{6} \]
- 方差:\[Var(X_i) = E(X_i^2) - [E(X_i)]^2 = \frac{91}{6} - 3.5^2 = \frac{35}{12} \approx 2.9167 \]
步骤2:计算样本均值\(\bar{X}\)的期望与方差
根据期望与方差的性质:
标准差:
步骤3:应用林德伯格-莱维中心极限定理
\(X_1,\dots,X_{100}\) 独立同分布,期望、方差有限,\(n=100\) 充分大,因此样本均值近似服从正态分布:
标准化后:
步骤4:概率计算
计算分位数:
因此:
查标准正态分布表得 \(\Phi(2.927) \approx 0.9983\),因此:
习题5
【考点】
林德伯格-莱维中心极限定理(独立同分布和的正态近似)
【题干回顾】
连续掷一颗骰子80次,求点数之和超过300的概率。
【详细解答与推导】
步骤1:定义随机变量,计算和的数字特征
设 \(S = \sum_{i=1}^{80} X_i\) 为80次掷骰子的点数和,单个点数的期望 \(E(X_i)=3.5\),方差 \(Var(X_i)=\frac{35}{12}\)。
和的期望与方差:
标准差:
步骤2:应用中心极限定理
\(n=80\) 充分大,因此和近似服从正态分布:
步骤3:概率计算
目标概率 \(P(S > 300)\),标准化得:
查得 \(\Phi(1.309) \approx 0.9048\),因此:
习题6
【考点】
指数分布的数字特征 + 林德伯格-莱维中心极限定理
【题干回顾】
10个灯泡,每个寿命服从指数分布,平均寿命60天,逐个更换,求总寿命超过450天的概率。
【详细解答与推导】
步骤1:指数分布的数字特征
设第\(i\)个灯泡的寿命为 \(X_i\),\(X_i\) 服从指数分布,已知期望 \(E(X_i)=60\) 天。
指数分布的核心性质:方差 = 期望的平方,因此:
步骤2:计算总寿命的数字特征
设总寿命 \(S = \sum_{i=1}^{10} X_i\),则:
标准差 \(\sqrt{Var(S)} = \sqrt{36000} \approx 189.737\)。
步骤3:应用中心极限定理
\(n=10\) 为小样本,但指数分布是单峰对称度较好的分布,中心极限定理仍有较好的近似效果,因此:
步骤4:概率计算
目标概率 \(P(S > 450)\),标准化得:
查得 \(\Phi(0.791) \approx 0.7855\),因此:
习题7
【考点】
均匀分布的数字特征 + 林德伯格-莱维中心极限定理
【题干回顾】
\(X_1,\dots,X_{48}\) 独立同分布,服从 \(U(0,5)\),均值 \(\bar{X} = \frac{1}{48}\sum_{i=1}^{48}X_i\),求 \(P(2 \leq \bar{X} \leq 3)\)。
【详细解答与推导】
步骤1:均匀分布的数字特征
对于区间 \((a,b)\) 上的均匀分布 \(U(a,b)\),期望和方差为:
本题中 \(a=0, b=5\),因此:
步骤2:样本均值的数字特征
标准差 \(\sqrt{Var(\bar{X})} = \frac{5}{24} \approx 0.2083\)。
步骤3:应用中心极限定理
\(n=48\) 充分大,因此:
步骤4:概率计算
计算分位数:
因此:
查得 \(\Phi(2.4) \approx 0.9918\),因此:
习题8
【考点】
泊松分布的数字特征 + 林德伯格-莱维中心极限定理
【题干回顾】
每天售车数服从参数 \(\lambda=2\) 的泊松分布,一年365天独立,求一年售出700辆以上的概率。
【详细解答与推导】
步骤1:泊松分布的数字特征
泊松分布 \(P(\lambda)\) 的核心性质:期望 = 方差 = \(\lambda\)。
设第\(i\)天的售车数为 \(X_i \sim P(2)\),因此:
步骤2:年总销量的数字特征
设年总销量 \(S = \sum_{i=1}^{365} X_i\),则:
标准差 \(\sqrt{Var(S)} = \sqrt{730} \approx 27.0185\)。
步骤3:应用中心极限定理
\(n=365\) 为大样本,因此:
步骤4:概率计算
目标概率 \(P(S > 700)\),标准化得:
查得 \(\Phi(1.110) \approx 0.8665\),因此:
核心知识点总结
| 定理类型 | 适用场景 | 核心前提 | 关键操作 |
|---|---|---|---|
| 棣莫弗-拉普拉斯定理 | 二项分布(n重伯努利试验) | 独立同伯努利分布,n充分大 | 必须做连续性修正,再标准化 |
| 林德伯格-莱维定理 | 任意独立同分布的和/均值 | 独立同分布,期望、方差有限,n充分大 | 先计算和/均值的期望、方差,再标准化 |
所有习题的核心逻辑一致:无论原始分布是什么,只要n充分大,独立随机变量的和/均值就近似服从正态分布,这也是中心极限定理的核心价值——它为大样本统计推断提供了统一的理论基础。
中心极限定理习题(9-14题)全解精讲
本次6道习题均为林德伯格-莱维独立同分布中心极限定理的典型应用,核心逻辑是:无论单个随机变量服从何种分布,只要独立同分布、期望和方差有限,当样本量n充分大时,其和的分布近似服从正态分布。下面逐题进行知识点拆解与完整推导,标注核心逻辑与易错点。
习题9
【考点】
均匀分布的数字特征 + 期望的线性性质 + 林德伯格-莱维中心极限定理
【题干回顾】
某餐厅每天接待400名顾客,每位顾客的消费额服从\((20,100)\)上的均匀分布,相互独立。求:
(1) 该餐厅每天的平均营业额;
(2) 该餐厅每天的营业额在平均营业额±760元内的概率。
【详细解答与推导】
(1) 求每天的平均营业额
平均营业额即日营业额的数学期望,先计算单个顾客消费额的数字特征:
设第\(i\)位顾客的消费额为\(X_i\),\(X_i \sim U(20,100)\),均匀分布的期望公式为\(E(X)=\frac{a+b}{2}\),因此:
设日总营业额为\(S = \sum_{i=1}^{400} X_i\),根据期望的线性可加性(无需独立性):
即该餐厅每天的平均营业额为24000元。
(2) 求营业额在平均±760元内的概率
步骤1:计算单个消费额的方差与总营业额的方差
均匀分布的方差公式为\(Var(X)=\frac{(b-a)^2}{12}\),因此单个消费额的方差:
根据独立性,总营业额的方差为各变量方差之和:
总营业额的标准差:
步骤2:应用中心极限定理做正态近似
\(n=400\)为大样本,根据林德伯格-莱维中心极限定理,总营业额近似服从正态分布:
标准化后,\(Z = \frac{S - 24000}{800/\sqrt{3}} \overset{近似}{\sim} N(0,1)\)(标准正态分布)。
步骤3:计算目标概率
目标概率为\(P(|S - 24000| \leq 760)\),对不等式标准化:
计算分位数:
因此概率转化为:
其中\(\Phi(\cdot)\)为标准正态分布的分布函数,利用对称性\(\Phi(-x)=1-\Phi(x)\),查标准正态分布表得\(\Phi(1.645)=0.95\),因此:
即营业额在平均±760元内的概率为90%。
习题10
【考点】
均匀分布的数字特征 + 林德伯格-莱维中心极限定理
【题干回顾】
一仪器同时收到50个信号,第\(i\)个信号长度\(U_i \sim U(0,10)\),相互独立,求\(P\left( \sum_{i=1}^{50} U_i > 300 \right)\)。
【详细解答与推导】
步骤1:计算单个信号的数字特征
\(U_i \sim U(0,10)\),因此:
步骤2:计算信号总和的数字特征
设总长度\(S = \sum_{i=1}^{50} U_i\),则:
标准差:
步骤3:正态近似与概率计算
\(n=50\)为大样本,因此\(S \overset{近似}{\sim} N\left(250, \frac{1250}{3}\right)\),标准化后:
查标准正态分布表得\(\Phi(2.449) \approx 0.9928\),因此:
即信号总长度超过300的概率约为0.72%。
习题11
【考点】
均匀分布的取整误差 + 林德伯格-莱维中心极限定理(概率计算+样本量求解)
【题干回顾】
计算机加法取整误差服从\((-0.5,0.5)\)上的均匀分布,相互独立。
(1) 1500个数相加,求误差总和的绝对值超过15的概率;
(2) 最多几个数加在一起,可使得误差总和的绝对值小于10的概率不小于90%?
【详细解答与推导】
首先计算单个取整误差\(X_i\)的数字特征:\(X_i \sim U(-0.5,0.5)\),因此:
(1) 1500个数相加的误差概率
设误差总和\(S = \sum_{i=1}^{1500} X_i\),则:
标准差\(\sqrt{Var(S)} = \sqrt{125} = 5\sqrt{5} \approx 11.1803\)。
目标概率为\(P(|S| > 15)\),先计算其对立事件:
标准化后:
查标准正态分布表得\(\Phi(1.3416) \approx 0.9099\),因此:
最终:
即误差总和绝对值超过15的概率约为18.02%。
(2) 求最大相加个数
设最多\(n\)个数相加,误差总和为\(S_n = \sum_{i=1}^n X_i\),要求:
\(S_n\)的数字特征:\(E(S_n)=0\),\(Var(S_n) = \frac{n}{12}\),标准差\(\sqrt{Var(S_n)} = \sqrt{\frac{n}{12}}\)。
标准化后不等式转化为:
即:
查标准正态分布表,\(\Phi(1.645)=0.95\),因此:
解不等式:
- 两边变形得:\(\sqrt{\frac{n}{12}} \leq \frac{10}{1.645} \approx 6.079\)
- 两边平方:\(\frac{n}{12} \leq 6.079^2 \approx 36.954\)
- 解得:\(n \leq 36.954 \times 12 \approx 443.45\)
\(n\)为正整数,因此最多443个数相加,可满足误差总和绝对值小于10的概率不小于90%。
习题12
【考点】
已知期望和标准差的独立同分布和的正态近似
【题干回顾】
每个零件重量为独立同分布的随机变量,期望0.5kg,标准差0.1kg,求5000只零件总重量超过2510kg的概率。
【详细解答与推导】
步骤1:计算总重量的数字特征
设第\(i\)个零件重量为\(X_i\),\(E(X_i)=0.5\),\(Var(X_i)=0.1^2=0.01\)。
总重量\(S = \sum_{i=1}^{5000} X_i\),因此:
标准差\(\sqrt{Var(S)} = \sqrt{50} \approx 7.0711\)。
步骤2:正态近似与概率计算
\(n=5000\)为大样本,\(S \overset{近似}{\sim} N(2500,50)\),标准化后:
查标准正态分布表得\(\Phi(1.414) \approx 0.9213\),因此:
即总重量超过2510kg的概率约为7.87%。
习题13
【考点】
独立同分布和的正态近似 + 不合格品率计算
【题干回顾】
产品由20个相同部件连接而成,每个部件长度是均值2mm、标准差0.02mm的独立同分布随机变量。产品总长为\((40 \pm 0.2)\)mm时为合格品,求不合格品率。
【详细解答与推导】
步骤1:计算产品总长的数字特征
设第\(i\)个部件长度为\(X_i\),\(E(X_i)=2\),\(Var(X_i)=0.02^2=0.0004\)。
产品总长\(S = \sum_{i=1}^{20} X_i\),因此:
标准差\(\sqrt{Var(S)} = \sqrt{0.008} \approx 0.08944\)。
步骤2:计算合格品率,再求不合格品率
合格条件为\(|S - 40| \leq 0.2\),因此合格品率为:
查标准正态分布表得\(\Phi(2.236) \approx 0.9874\),因此:
不合格品率 = 1 - 合格品率:
即该产品的不合格品率约为2.52%。
习题14
【考点】
独立同分布和的中心极限定理(保险索赔场景)
【题干回顾】
保险公司有10000个汽车投保人,每个投保人平均索赔280元,标准差800元,求总索赔额超过2700000元的概率。
【详细解答与推导】
步骤1:计算总索赔额的数字特征
设第\(i\)个投保人的索赔额为\(X_i\),\(E(X_i)=280\),\(Var(X_i)=800^2=640000\)。
总索赔额\(S = \sum_{i=1}^{10000} X_i\),因此:
标准差\(\sqrt{Var(S)} = 80000\)元。
步骤2:正态近似与概率计算
\(n=10000\)为大样本,\(S \overset{近似}{\sim} N(2800000, 6.4 \times 10^9)\),标准化后:
利用标准正态分布的对称性\(P(Z > -a) = \Phi(a)\),查得\(\Phi(1.25)=0.8944\),因此:
即总索赔额超过2700000元的概率约为89.44%。
核心解题步骤总结
所有习题的解题逻辑完全统一,可归纳为4步通用流程:
- 计算单个变量的数字特征:根据分布类型,计算期望\(E(X_i)\)和方差\(Var(X_i)\);
- 计算总和的数字特征:利用线性可加性,计算总和\(S\)的期望\(E(S)=nE(X_i)\)和方差\(Var(S)=nVar(X_i)\);
- 正态近似:根据中心极限定理,总和\(S\)近似服从正态分布\(N(E(S), Var(S))\),做标准化转化为标准正态分布;
- 概率计算:查标准正态分布表,计算目标概率或解样本量不等式。
中心极限定理习题(15-27题)全解精讲
本次习题覆盖样本均值的正态近似、二项分布的频率估计、指数分布/离散分布的和的近似、样本量设计、理论证明等核心场景,均为林德伯格-莱维中心极限定理与棣莫弗-拉普拉斯定理的综合应用,下面逐题进行完整推导与知识点讲解。
习题15
【考点】
样本均值的正态近似 + 样本量对抽样分布的影响
【题干回顾】
同年级同一门课,甲班25人,乙班64人;课程考试平均成绩78分,标准差14分。问甲班平均成绩超过80分的概率大,还是乙班的概率大?
【详细解答】
设课程考试成绩为总体\(X\),总体均值\(\mu=78\),总体标准差\(\sigma=14\)。设甲班成绩为\(X_{11},\dots,X_{1,25}\),乙班成绩为\(X_{21},\dots,X_{2,64}\),均为独立同分布的样本,样本均值分别为\(\bar{X}_甲\)、\(\bar{X}_乙\)。
步骤1:计算样本均值的数字特征
根据样本均值的性质,无论总体分布如何,都有:
- 样本均值的期望:\(E(\bar{X}) = \mu = 78\)
- 样本均值的方差:\(Var(\bar{X}) = \frac{\sigma^2}{n}\),标准差:\(\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\)
因此:
- 甲班(\(n=25\)):\(\sigma_{\bar{X}_甲} = \frac{14}{\sqrt{25}} = 2.8\)
- 乙班(\(n=64\)):\(\sigma_{\bar{X}_乙} = \frac{14}{\sqrt{64}} = 1.75\)
步骤2:正态近似与概率计算
根据林德伯格-莱维中心极限定理,\(n\)充分大时,样本均值近似服从正态分布:
目标概率为\(P(\bar{X} > 80)\),标准化后:
分别计算两个班级的概率:
- 甲班:\(\frac{2}{2.8} \approx 0.714\),\(P(\bar{X}_甲 >80) = 1 - \Phi(0.714) \approx 1 - 0.762 = 0.238\)
- 乙班:\(\frac{2}{1.75} \approx 1.143\),\(P(\bar{X}_乙 >80) = 1 - \Phi(1.143) \approx 1 - 0.873 = 0.127\)
结论
甲班平均成绩超过80分的概率更大。
核心规律:样本量越大,样本均值的标准差(标准误)越小,均值越集中在总体均值附近,偏离总体均值的概率越小。
习题16
【考点】
棣莫弗-拉普拉斯定理(频率与概率的误差估计)
【题干回顾】
独立重复试验,事件\(A\)发生的概率\(p=0.25\),试以95%的把握保证1000次试验中,事件\(A\)发生的频率与概率相差多少?此时\(A\)发生的次数在什么范围内?
【详细解答】
设1000次试验中事件\(A\)发生的次数为\(S_n\),则\(S_n \sim b(n=1000, p=0.25)\),频率为\(\frac{S_n}{n}\)。我们需要求最大的误差\(\varepsilon\),使得:
步骤1:计算二项分布的数字特征
标准差\(\sqrt{Var(S_n)} = \sqrt{187.5} \approx 13.693\)
步骤2:标准化与分位数求解
对不等式标准化:
根据棣莫弗-拉普拉斯定理,标准化变量近似服从标准正态分布,因此:
查标准正态分布表,\(\Phi(1.96)=0.975\),因此:
步骤3:求解误差\(\varepsilon\)
代入\(n=1000, p=0.25, q=0.75\):
即以95%的把握,频率与概率的相差不超过2.68%。
步骤4:求事件发生次数的范围
次数范围满足:
变形得:
即223 ≤ S_n ≤ 277(次数取整数)。
习题17
【考点】
指数分布的数字特征 + 中心极限定理(概率计算+样本量设计)
【题干回顾】
组装每件产品的时间服从指数分布,平均需要10min,各产品组装时间独立。
(1) 求组装100件产品需要15h至20h的概率;
(2) 保证有95%的可能性,问16个小时内最多可以组装多少件产品?
【详细解答】
设第\(i\)件产品的组装时间为\(X_i\),\(X_i\)服从指数分布,已知期望\(E(X_i)=10\)min。指数分布的核心性质:若\(E(X)=\frac{1}{\lambda}=10\),则\(\lambda=0.1\),方差\(Var(X_i)=\frac{1}{\lambda^2}=100\)。
(1) 组装100件产品的时间概率
15h=900min,20h=1200min,设总组装时间\(S = \sum_{i=1}^{100} X_i\),目标概率为\(P(900 \leq S \leq 1200)\)。
步骤1:计算总时间的数字特征
步骤2:正态近似与概率计算
\(n=100\)为大样本,\(S \overset{近似}{\sim} N(1000, 10000)\),标准化后:
即组装100件产品需要15h至20h的概率约为81.85%。
(2) 16小时内最多组装的产品数
16h=960min,设最多组装\(n\)件产品,总时间\(S_n = \sum_{i=1}^n X_i\),要求:
步骤1:总时间的数字特征
步骤2:标准化与分位数求解
标准化后:
查标准正态分布表,\(\Phi(1.645)=0.95\),因此:
步骤3:解不等式
变形得:
令\(t=\sqrt{n}\)(\(t>0\)),不等式转化为二次不等式:
解二次方程\(10t^2 +16.45t -960=0\),求根公式:
取正根:\(t \approx 8.99\),因此\(\sqrt{n} \leq 8.99 \implies n \leq 80.82\)。
\(n\)为正整数,因此16小时内最多可以组装80件产品。
习题18
【考点】
离散型随机变量和的正态近似
【题干回顾】
福利彩票奖金\(X\)的分布列为:
| \(X\)(万元) | 5 | 10 | 20 | 30 | 40 | 50 | 100 |
|---|---|---|---|---|---|---|---|
| \(P\) | 0.2 | 0.2 | 0.2 | 0.1 | 0.1 | 0.1 | 0.1 |
一年开出300个奖,问需要多少奖金总额,才有95%的把握能够发放奖金?
【详细解答】
设第\(i\)个奖的奖金为\(X_i\),\(X_i\)独立同分布,总奖金\(S = \sum_{i=1}^{300} X_i\)。我们需要求最小的总额\(T\),使得\(P(S \leq T) \geq 0.95\)。
步骤1:计算单个奖金的期望与方差
- 期望:\[E(X) = 5 \times 0.2 + 10 \times 0.2 + 20 \times 0.2 + 30 \times 0.1 + 40 \times 0.1 + 50 \times 0.1 + 100 \times 0.1 = 23 \ \text{万元} \]
- 二阶矩:\[E(X^2) = 5^2 \times 0.2 + 10^2 \times 0.2 + 20^2 \times 0.2 + 30^2 \times 0.1 + 40^2 \times 0.1 + 50^2 \times 0.1 + 100^2 \times 0.1 = 1635 \]
- 方差:\[Var(X) = E(X^2) - [E(X)]^2 = 1635 - 23^2 = 1106 \]
步骤2:计算总奖金的数字特征
步骤3:正态近似与总额求解
\(n=300\)为大样本,\(S \overset{近似}{\sim} N(6900, 331800)\),因此:
查标准正态分布表,\(\Phi(1.645)=0.95\),因此:
解得:
即需要准备7848万元(向上取整),才有95%的把握发放奖金。
习题19
【考点】
二项分布的正态近似(资源配置场景)
【题干回顾】
大旅馆有500间客房,每间客房有一台2kW的空调,开房率为80%。需要多少千瓦的电力,才能有99%的可能性保证有足够的电力使用空调?
【详细解答】
设同时开房的房间数为\(S\),则\(S \sim b(n=500, p=0.8)\),总用电功率为\(2S\) kW。我们需要求最小的电力\(W\),使得\(P(2S \leq W) \geq 0.99\),即\(P(S \leq W/2) \geq 0.99\)。
步骤1:计算二项分布的数字特征
步骤2:正态近似与电力求解
根据棣莫弗-拉普拉斯定理,\(S \overset{近似}{\sim} N(400, 80)\),连续性修正后:
查标准正态分布表,\(\Phi(2.33)=0.99\),因此:
解得:
即需要至少841kW的电力,才能有99%的可能性保证足够电力。
习题20
【考点】
独立同分布和的正态近似(备件数量设计)
【题干回顾】
元件平均寿命100小时,标准差30小时,失效后立即更换。问应该有多少备件,才能有95%以上的概率,保证系统连续运行2000小时以上?
【详细解答】
设需要\(n\)个备件,第\(i\)个元件的寿命为\(X_i\),\(E(X_i)=100\),\(Var(X_i)=30^2=900\),总寿命\(S_n = \sum_{i=1}^n X_i\)。要求:
步骤1:总寿命的数字特征
步骤2:正态近似与备件数求解
\(n\)充分大时,\(S_n \overset{近似}{\sim} N(100n, 900n)\),因此:
利用标准正态分布性质\(P(Z \geq a) = 1 - \Phi(a) \geq 0.95\),即\(\Phi(a) \leq 0.05\),而\(\Phi(-1.645)=0.05\),因此:
步骤3:解不等式
变形得:
令\(t=\sqrt{n}\),转化为二次不等式:
解二次方程,取正根:\(t \approx 4.597\),因此\(\sqrt{n} \geq 4.597 \implies n \geq 21.13\)。
\(n\)为正整数,因此至少需要22个备件,才能保证95%以上的概率连续运行2000小时以上。
习题21
【考点】
正态总体的样本均值分布(样本量设计)
【题干回顾】
对物体长度\(a\)进行\(n\)次测量,每次测量结果\(X_i \sim N(a, 0.2^2)\),\(\bar{X}\)为平均值。为保证有95%的把握使平均值与实际值\(a\)的差异小于0.1,问至少需要测量多少次?
【详细解答】
\(X_i \sim N(a, 0.2^2)\)且相互独立,因此样本均值\(\bar{X}\)服从精确正态分布(无需中心极限定理近似):
要求\(P(|\bar{X} - a| < 0.1) \geq 0.95\),标准化后:
因此\(\Phi\left( \frac{\sqrt{n}}{2} \right) \geq 0.975\),查标准正态分布表得\(\Phi(1.96)=0.975\),因此:
\(n\)为正整数,因此至少需要测量16次。
习题22
【考点】
二项分布的正态近似(产能设计)
【题干回顾】
工厂每月生产10000台投影机,液晶片合格率90%。为以99.7%的可能性保证出厂的投影机都能装上合格的液晶片,问每月至少生产多少液晶片?
【详细解答】
设每月生产\(n\)片液晶片,合格片数量为\(S\),则\(S \sim b(n, 0.9)\)。要求\(P(S \geq 10000) \geq 0.997\)。
步骤1:二项分布的数字特征
步骤2:正态近似与产能求解
连续性修正后:
因此\(\Phi\left( \frac{9999.5 - 0.9n}{0.3\sqrt{n}} \right) \leq 0.003\),查标准正态分布表,\(\Phi(-2.75)=0.003\),因此:
步骤3:解不等式
变形得:
令\(t=\sqrt{n}\),转化为二次不等式:
解二次方程,取正根:\(t \approx 105.85\),因此\(\sqrt{n} \geq 105.85 \implies n \geq 11204.2\)。
\(n\)为正整数,因此每月至少生产11205片液晶片。
习题23
【考点】
二项分布的正态近似(包装数量设计)
【题干回顾】
产品合格率99%,问包装箱中应该装多少个产品,才能有95%的可能性使每箱中至少有100个合格产品?
【详细解答】
设每箱装\(n\)个产品,合格产品数为\(S\),则\(S \sim b(n, 0.99)\)。要求\(P(S \geq 100) \geq 0.95\)。
步骤1:二项分布的数字特征
步骤2:正态近似与数量求解
连续性修正后:
因此\(\Phi\left( \frac{99.5 - 0.99n}{0.0995\sqrt{n}} \right) \leq 0.05\),即:
步骤3:解不等式
变形得:
令\(t=\sqrt{n}\),转化为二次不等式:
解二次方程,取正根:\(t \approx 10.08\),因此\(\sqrt{n} \geq 10.08 \implies n \geq 101.6\)。
\(n\)为正整数,因此每箱至少装102个产品。
习题24
【考点】
二项分布的频率估计(抽样调查样本量设计)
【题干回顾】
为确定城市成年男子吸烟比例\(p\),调查\(n\)个成年男子,吸烟人数为\(m\)。问\(n\)至少为多大,才能保证\(|m/n - p| < 0.01\)的概率大于95%?
【详细解答】
设吸烟人数\(m \sim b(n,p)\),要求\(P\left( \left| \frac{m}{n} - p \right| < 0.01 \right) > 0.95\)。
标准化后:
因此\(\Phi\left( \frac{0.01\sqrt{n}}{\sqrt{pq}} \right) > 0.975\),即:
由于总体比例\(p\)未知,我们做保守估计:\(pq=p(1-p) \leq 0.25\)(当\(p=0.5\)时取最大值),因此:
因此\(\sqrt{n} > 98 \implies n > 9604\),即\(n\)至少为9605。
习题25
【考点】
伽马分布的中心极限定理近似
【题干回顾】
设\(X \sim Ga(n,1)\),问\(n\)应该多大,才能满足\(P\left( \left| \frac{X}{n} - 1 \right| > 0.1 \right) < 0.01\)。
【详细解答】
首先回顾伽马分布\(Ga(\alpha,\lambda)\)的数字特征:期望\(E(X)=\frac{\alpha}{\lambda}\),方差\(Var(X)=\frac{\alpha}{\lambda^2}\)。本题中\(X \sim Ga(n,1)\),因此:
令\(Y = \frac{X}{n}\),则\(E(Y)=1\),\(Var(Y) = \frac{Var(X)}{n^2} = \frac{1}{n}\),标准差\(\sqrt{Var(Y)} = \frac{1}{\sqrt{n}}\)。
根据中心极限定理,\(n\)充分大时,\(Y\)近似服从正态分布:
要求\(P(|Y - 1| > 0.1) < 0.01\),即\(P(|Y - 1| \leq 0.1) > 0.99\),标准化后:
因此\(\Phi(0.1\sqrt{n}) > 0.995\),查标准正态分布表,\(\Phi(2.576)=0.995\),因此:
即\(n\)至少为664。
习题26
【考点】
林德伯格-莱维中心极限定理的理论应用
【题干回顾】
设\(\{X_n\}\)为独立同分布的随机变量序列,已知\(E(X_i^k)=\alpha_k, k=1,2,3,4\)。试证明:当\(n\)充分大时,\(Y_n = \frac{1}{n}\sum_{i=1}^n X_i^2\)近似服从正态分布,并指出此正态分布的参数。
【详细证明】
步骤1:构造独立同分布的随机变量序列
令\(Z_i = X_i^2\),由于\(\{X_n\}\)独立同分布,因此\(\{Z_n\}\)也为独立同分布的随机变量序列。
步骤2:计算\(Z_i\)的期望与方差
根据已知条件:
- 期望:\(E(Z_i) = E(X_i^2) = \alpha_2\)(有限)
- 二阶矩:\(E(Z_i^2) = E(X_i^4) = \alpha_4\)(有限)
- 方差:\(Var(Z_i) = E(Z_i^2) - [E(Z_i)]^2 = \alpha_4 - \alpha_2^2\)(有限,且为正,否则为退化分布)
步骤3:应用林德伯格-莱维中心极限定理
\(\{Z_n\}\)独立同分布,且存在有限的期望和正的方差,完全满足林德伯格-莱维中心极限定理的条件。因此当\(n\)充分大时,和\(\sum_{i=1}^n Z_i\)近似服从正态分布:
对和做缩放,得到\(Y_n = \frac{1}{n}\sum Z_i\)的近似分布:
结论
当\(n\)充分大时,\(Y_n\)近似服从正态分布\(N\left( \alpha_2, \frac{\alpha_4 - \alpha_2^2}{n} \right)\),其中期望为\(\alpha_2\),方差为\(\frac{\alpha_4 - \alpha_2^2}{n}\)。
习题27
【考点】
中心极限定理的极限证明应用
【题干回顾】
用概率论的方法证明:
【详细证明】
步骤1:构造泊松分布的随机变量序列
设\(X_1,X_2,\dots,X_n\)为独立同分布的随机变量,均服从参数\(\lambda=1\)的泊松分布,即\(X_i \sim P(1)\)。
泊松分布的核心性质:
- 数字特征:\(E(X_i)=1\),\(Var(X_i)=1\);
- 可加性:独立泊松分布的和仍服从泊松分布,即\(S_n = \sum_{i=1}^n X_i \sim P(n)\)。
因此\(S_n\)的分布列为:
步骤2:将极限式转化为概率
题目中的极限式可改写为:
步骤3:应用中心极限定理
\(S_n\)为独立同分布的随机变量和,期望\(E(S_n)=n\),方差\(Var(S_n)=n\),标准差\(\sqrt{Var(S_n)}=\sqrt{n}\)。
根据林德伯格-莱维中心极限定理,当\(n \to \infty\)时,标准化变量依分布收敛于标准正态分布:
因此:
其中\(\Phi(\cdot)\)为标准正态分布的分布函数,\(\Phi(0)=\frac{1}{2}\)。
结论
证毕。
posted on 2026-03-16 12:02 Indian_Mysore 阅读(104) 评论(0) 收藏 举报
浙公网安备 33010602011771号