3.4矩估计法(Method of Moments, MOM)
矩估计法(Method of Moments, MOM)完整讲解与推导
各位同学,今天我们用一整节课的时间,把矩估计这个参数估计的经典方法讲透。矩估计是统计学中最古老的参数估计方法之一,它的核心思想朴素到极致:用样本的数字特征,去替换总体对应的数字特征,背后的理论支撑是概率论的基石——大数定律。接下来我们从理论根基、定义、核心原理、性质证明、求解步骤、典型例题、优缺点全链条展开,最后用表格做系统总结。
一、矩估计的理论基础:大数定律
矩估计的所有合理性,都来自于独立同分布情形下的辛钦大数定律,我们先把这个定律讲清楚,再推广到高阶矩。
1. 辛钦大数定律(核心)
设随机变量序列 \(X_1,X_2,\dots,X_n,\dots\) 独立同分布,且具有有限的数学期望 \(E(X_i)=\mu\),则对任意的 \(\varepsilon>0\),有:
通俗解释:当样本量 \(n\) 足够大时,样本均值 \(\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i\) 会无限逼近总体的真实均值 \(\mu\),二者出现显著偏差的概率趋近于0。
2. 大数定律向高阶矩的推广
我们把“均值”推广到任意阶的矩:
- 对 \(j\) 阶原点矩,若 \(E|X_1^j|<+\infty\)(即总体 \(j\) 阶矩存在),则 \(X_1^j,X_2^j,\dots,X_n^j\) 也是独立同分布的随机变量序列,且 \(E(X_i^j)=\mu_j\)。根据辛钦大数定律,样本 \(j\) 阶原点矩依概率收敛于总体 \(j\) 阶原点矩:\[a_j=\frac{1}{n}\sum_{i=1}^n X_i^j \stackrel{P}{\to} \mu_j=E(X_1^j) \quad (n\to\infty) \]
- 对 \(j\) 阶中心矩,同理可证:样本 \(j\) 阶中心矩依概率收敛于总体 \(j\) 阶中心矩:\[m_j=\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^j \stackrel{P}{\to} \alpha_j=E(X_1-\mu_1)^j \quad (n\to\infty) \]
这两个收敛性,就是矩估计“用样本矩替换总体矩”的核心依据:当样本量足够大时,样本矩和总体矩的差异可以忽略,用样本矩代替总体矩来估计未知参数,是统计意义上合理的。
二、核心定义:总体矩与样本矩
我们先把四个核心矩的定义、符号、含义讲清楚,这是矩估计的基本语言。
设 \(X_1,X_2,\dots,X_n\) 是来自总体 \(X\) 的独立同分布样本,总体的概率密度/分布律为 \(f(x;\theta)\),\(\theta\) 是待估的未知参数,我们定义:
| 矩类型 | 定义公式 | 核心含义 | 特殊情况 |
|---|---|---|---|
| 总体 \(j\) 阶原点矩 | \(\mu_j = E(X_1^j)\) | 总体的 \(j\) 次幂的期望,描述总体分布的数字特征 | \(j=1\) 时,\(\mu_1=E(X_1)\),即总体均值 |
| 总体 \(j\) 阶中心矩 | \(\alpha_j = E\left[(X_1-\mu_1)^j\right]\) | 总体中心化(减均值)后 \(j\) 次幂的期望,消除了均值的影响 | \(j=2\) 时,\(\alpha_2=Var(X_1)=\sigma^2\),即总体方差 |
| 样本 \(j\) 阶原点矩 | \(a_j = \frac{1}{n}\sum_{i=1}^n X_i^j\) | 样本的 \(j\) 次幂的平均值,是样本的统计量(不含未知参数) | \(j=1\) 时,\(a_1=\bar{X}\),即样本均值 |
| 样本 \(j\) 阶中心矩 | \(m_j = \frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^j\) | 样本中心化后 \(j\) 次幂的平均值,同样是统计量 | \(j=2\) 时,\(m_2=\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2\),即样本二阶中心矩 |
三、矩估计的核心原理:替换原则
矩估计的核心思想,就是矩法替换原则,分为两层:
- 用样本原点矩替换对应的总体原点矩,用样本中心矩替换对应的总体中心矩;
- 用样本矩的连续函数,替换总体矩的同一连续函数。
通过这个替换,我们就能把总体矩中包含的未知参数,转化为用样本矩表示的估计量,这个过程就是矩估计,得到的估计量称为矩估计量,代入样本观测值得到的结果称为矩估计值。
更一般地,若待估参数的函数 \(g(\theta)\) 可以表示为总体矩的函数 \(g(\theta)=G(\mu_1,\mu_2,\dots,\mu_k;\alpha_1,\alpha_2,\dots,\alpha_l)\),则它的矩估计为:
这就是教材中提到的矩方程估计提到的矩方程估计**,是矩估计的推广形式。
四、矩估计的核心性质与严格证明
接下来我们证明矩估计的三个核心性质,这是判断矩估计优劣的核心依据。
性质1:样本原点矩是总体原点矩的无偏估计
命题:对任意正整数 \(j\),样本 \(j\) 阶原点矩 \(a_j\) 是总体 \(j\) 阶原点矩 \(\mu_j\) 的无偏估计,即 \(E(a_j)=\mu_j\)。
证明:
根据期望的线性性质,对任意 \(i\),\(E(X_i^j)=\mu_j\),因此:
无偏性得证。
性质2:样本中心矩通常不是总体中心矩的无偏估计(以二阶为例)
命题:样本二阶中心矩 \(m_2\) 是总体方差 \(\sigma^2=\alpha_2\) 的有偏估计,即 \(E(m_2)\neq\sigma^2\)。
证明:
首先展开 \(m_2\) 的表达式:
对两边取期望:
根据方差公式 \(E(Y^2)=Var(Y)+[E(Y)]^2\),我们有:
- 对单个样本 \(X_i\):\(E(X_i^2)=Var(X_i)+[E(X_i)]^2=\sigma^2+\mu^2\)
- 对样本均值 \(\bar{X}\):\(E(\bar{X})=\mu\),\(Var(\bar{X})=\frac{\sigma^2}{n}\),因此 \(E(\bar{X}^2)=\frac{\sigma^2}{n}+\mu^2\)
将上述结果代入 \(E(m_2)\):
显然 \(E(m_2)=\frac{n-1}{n}\sigma^2 \neq \sigma^2\),因此 \(m_2\) 是 \(\sigma^2\) 的有偏估计。
补充:当 \(n\to\infty\) 时,\(\lim_{n\to\infty}E(m_2)=\sigma^2\),因此 \(m_2\) 是 \(\sigma^2\) 的渐近无偏估计。
性质3:矩估计量具有相合性(一致性)
命题:样本原点矩 \(a_j\) 是总体原点矩 \(\mu_j\) 的相合估计,样本中心矩 \(m_j\) 是总体中心矩 \(\alpha_j\) 的相合估计;若 \(g(\cdot)\) 是连续函数,则矩估计量 \(\hat{\theta}=g(a_1,a_2,\dots,a_k)\) 是 \(\theta=g(\mu_1,\mu_2,\dots,\mu_k)\) 的相合估计。
证明:
- 样本原点矩的相合性:直接由辛钦大数定律可得,\(a_j \stackrel{P}{\to} \mu_j \ (n\to\infty)\),因此 \(a_j\) 是 \(\mu_j\) 的相合估计。
- 样本二阶中心矩的相合性:\(m_2=a_2 - a_1^2\),根据依概率收敛的性质:若 \(X_n \stackrel{P}{\to} a\),\(Y_n \stackrel{P}{\to} b\),则 \(X_n \pm Y_n \stackrel{P}{\to} a\pm b\),\(X_n Y_n \stackrel{P}{\to} ab\)。
已知 \(a_2 \stackrel{P}{\to} \mu_2\),\(a_1 \stackrel{P}{\to} \mu_1\),因此 \(a_1^2 \stackrel{P}{\to} \mu_1^2\),故:\[m_2=a_2 - a_1^2 \stackrel{P}{\to} \mu_2 - \mu_1^2 = \sigma^2=\alpha_2 \]高阶样本中心矩可通过展开为样本原点矩的多项式,同理可证相合性。 - 矩估计量的相合性:根据连续映射定理,若 \(g(\cdot)\) 是连续函数,\(X_n \stackrel{P}{\to} a\),则 \(g(X_n) \stackrel{P}{\to} g(a)\)。因此矩估计量作为样本矩的连续函数,必然依概率收敛到待估参数,即具有相合性。
性质4:矩估计量具有渐近正态性
根据林德伯格-莱维中心极限定理,对样本 \(j\) 阶原点矩,有:
其中 \(\stackrel{d}{\to}\) 表示依分布收敛,\(\mu_{2j}-\mu_j^2=Var(X_1^j)\) 是 \(X_1^j\) 的方差。
这说明:当样本量足够大时,矩估计量近似服从正态分布,我们可以基于此构造参数的大样本置信区间,这是矩估计大样本下的核心优势。
五、矩估计的通用求解步骤
矩估计的求解有固定的标准化步骤,无论什么分布,都可以按照这4步完成求解,我们先给出通用步骤,再通过例题逐一验证。
设总体分布含有 \(k\) 个未知参数 \(\theta_1,\theta_2,\dots,\theta_k\),矩估计的步骤为:
- 计算总体矩:根据总体分布,计算前 \(k\) 阶总体矩(原点矩/中心矩均可,优先选低阶、易计算的),得到总体矩关于未知参数的函数:\[\mu_j = h_j(\theta_1,\theta_2,\dots,\theta_k), \quad j=1,2,\dots,k \]
- 建立矩方程组:根据待估参数的个数,建立 \(k\) 个方程的矩方程组。
- 解矩方程组:将未知参数 \(\theta_1,\dots,\theta_k\) 表示为总体矩 \(\mu_1,\dots,\mu_k\) 的函数:\[\theta_j = g_j(\mu_1,\mu_2,\dots,\mu_k), \quad j=1,2,\dots,k \]
- 替换得到矩估计:将表达式中的总体矩替换为对应的样本矩,得到未知参数的矩估计量:\[\hat{\theta}_j = g_j(a_1,a_2,\dots,a_k), \quad j=1,2,\dots,k \]代入样本观测值,即可得到矩估计值。
六、典型例题的完整推导
我们把教材中的5个例题逐一做完整推导,把每一步的逻辑讲清楚,帮大家彻底掌握矩估计的求解。
例1:Laplace分布 \(LA(\mu,\sigma)\) 的矩估计
设 \(X_1,\dots,X_n\) 独立同分布,\(X_1 \sim LA(\mu,\sigma)\),概率密度为:
待估参数为 \(\mu\) 和 \(\sigma^2\),共2个未知参数,因此需要2个总体矩。
步骤1:计算总体矩
-
1阶原点矩(期望):
\[E(X_1)=\int_{-\infty}^{+\infty} x \cdot \frac{1}{2\sigma}e^{-\frac{|x-\mu|}{\sigma}} dx \]令 \(t=x-\mu\),则 \(x=t+\mu\),积分变为:
\[E(X_1)=\int_{-\infty}^{+\infty} (t+\mu) \cdot \frac{1}{2\sigma}e^{-\frac{|t|}{\sigma}} dt = \frac{1}{2\sigma}\int_{-\infty}^{+\infty} t e^{-\frac{|t|}{\sigma}} dt + \mu \cdot \frac{1}{2\sigma}\int_{-\infty}^{+\infty} e^{-\frac{|t|}{\sigma}} dt \]第一个积分的被积函数是奇函数,对称区间积分结果为0;第二个积分 \(\int_{-\infty}^{+\infty} e^{-\frac{|t|}{\sigma}} dt=2\sigma\),因此:
\[E(X_1)=\mu \implies \mu_1=\mu \] -
2阶中心矩(方差):
\[Var(X_1)=E[(X_1-\mu)^2]=\int_{-\infty}^{+\infty} (x-\mu)^2 \cdot \frac{1}{2\sigma}e^{-\frac{|x-\mu|}{\sigma}} dx \]令 \(t=x-\mu\),被积函数为偶函数,因此:
\[Var(X_1)=\frac{1}{\sigma}\int_{0}^{+\infty} t^2 e^{-\frac{t}{\sigma}} dt = \frac{1}{\sigma} \cdot 2\sigma^3 = 2\sigma^2 \]即 \(\alpha_2=2\sigma^2\)。
步骤2-3:解矩方程组
我们得到方程组:
解得:
步骤4:替换得到矩估计
将 \(\mu_1\) 替换为样本均值 \(a_1=\bar{X}\),\(\alpha_2\) 替换为样本二阶中心矩 \(m_2=\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2\),得到矩估计量:
例2:伽马分布 \(\Gamma(\lambda,\nu)\) 的矩估计
设 \(X_1,\dots,X_n\) 独立同分布,\(X_1 \sim \Gamma(\lambda,\nu)\),概率密度为:
待估参数为 \(\lambda\) 和 \(\nu\),共2个未知参数,需要2个总体矩。
步骤1:计算总体矩
-
1阶原点矩(期望):
\[E(X_1)=\int_{0}^{+\infty} x \cdot \frac{\lambda^\nu}{\Gamma(\nu)}x^{\nu-1}e^{-\lambda x} dx \]令 \(t=\lambda x\),则 \(x=t/\lambda\),\(dx=dt/\lambda\),代入得:
\[E(X_1)=\frac{\lambda^\nu}{\Gamma(\nu) \cdot \lambda^{\nu+1}} \int_{0}^{+\infty} t^\nu e^{-t} dt = \frac{\Gamma(\nu+1)}{\lambda \Gamma(\nu)} = \frac{\nu}{\lambda} \]即 \(\mu_1=\frac{\nu}{\lambda}\)。
-
2阶中心矩(方差):
先计算2阶原点矩:\[E(X_1^2)=\frac{\lambda^\nu}{\Gamma(\nu)} \int_{0}^{+\infty} x^{\nu+1}e^{-\lambda x} dx = \frac{\Gamma(\nu+2)}{\lambda^2 \Gamma(\nu)} = \frac{\nu(\nu+1)}{\lambda^2} \]因此方差:
\[Var(X_1)=E(X_1^2)-[E(X_1)]^2 = \frac{\nu(\nu+1)}{\lambda^2} - \frac{\nu^2}{\lambda^2} = \frac{\nu}{\lambda^2} \]即 \(\alpha_2=\frac{\nu}{\lambda^2}\)。
步骤2-3:解矩方程组
方程组为:
将 \(\nu=\lambda \mu_1\) 代入第二个方程,得 \(\alpha_2=\frac{\mu_1}{\lambda}\),解得:
步骤4:替换得到矩估计
将 \(\mu_1\) 替换为 \(\bar{X}\),\(\alpha_2\) 替换为样本二阶中心矩 \(S^2=\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2\),得到矩估计量:
例3:总体相关系数 \(\rho\) 的矩估计
设 \((X_1,Y_1),\dots,(X_n,Y_n)\) 独立同分布,总体相关系数定义为:
其中 \(Cov(X_1,Y_1)=E[(X_1-E(X_1))(Y_1-E(Y_1))]\) 是总体协方差。
核心思路:替换原则
我们直接用样本矩替换总体矩:
- 总体期望 \(E(X_1)\) 替换为样本均值 \(\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i\),\(E(Y_1)\) 替换为 \(\bar{Y}=\frac{1}{n}\sum_{i=1}^n Y_i\);
- 总体协方差替换为样本混合中心矩 \(\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})\);
- 总体方差 \(Var(X_1)\) 替换为样本二阶中心矩 \(\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2\),\(Var(Y_1)\) 替换为 \(\frac{1}{n}\sum_{i=1}^n (Y_i-\bar{Y})^2\)。
矩估计结果
替换后分子分母的 \(\frac{1}{n}\) 可以约去,得到 \(\rho\) 的矩估计量:
这就是我们常用的样本相关系数,这个例子也体现了矩估计的优势:不需要知道总体的联合分布,仅通过样本矩就能完成估计。
例4:均匀分布 \(R(\theta_1,\theta_2)\) 的矩估计
设 \(X_1,\dots,X_n\) 独立同分布,\(X_1 \sim R(\theta_1,\theta_2)\),概率密度为:
待估参数为 \(\theta_1\) 和 \(\theta_2\),共2个未知参数,需要2个总体矩。
步骤1:计算总体矩
- 1阶原点矩(期望):均匀分布的期望为区间中点,即\[E(X_1)=\frac{\theta_1+\theta_2}{2} \implies \mu_1=\frac{\theta_1+\theta_2}{2} \]
- 2阶中心矩(方差):均匀分布的方差为\[Var(X_1)=\frac{(\theta_2-\theta_1)^2}{12} \implies \alpha_2=\frac{(\theta_2-\theta_1)^2}{12} \]
步骤2-3:解矩方程组
方程组为:
令 \(S=\sqrt{\alpha_2}\),变形得:
联立解得:
步骤4:替换得到矩估计
将 \(\mu_1\) 替换为 \(\bar{X}\),\(S\) 替换为样本二阶中心矩的平方根 \(\sqrt{\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2}\),得到矩估计量:
例5:超几何分布的矩估计(鱼塘鱼总数估计)
设鱼塘总鱼数为 \(N\),其中标记的鱼有 \(m=500\) 条,不放回捕捞 \(n\) 条,其中标记的鱼数 \(X \sim HG(n,N,m)\)(超几何分布),待估参数为 \(N\)。
步骤1:计算总体矩
超几何分布的期望为:
步骤2-3:解矩方程
解得:
步骤4:替换得到矩估计
这里只有1个观测值 \(x=100\),样本均值 \(\bar{X}=x=100\),替换后得到:
代入 \(m=500\),\(\bar{X}=100\),得 \(\hat{N}=5n\),和极大似然估计结果一致。
七、矩估计的优缺点总结
优点
- 原理直观,操作简单:核心思想符合“用样本特征估计总体特征”的统计直觉,计算仅需求解样本矩和简单方程组,无需复杂的数值计算。
- 适用范围广:不需要知道总体的完整分布形式,仅需总体矩存在且与参数有明确的函数关系即可使用,甚至分布未知时也能估计(如相关系数)。
- 大样本性质优良:矩估计量天然具有相合性和渐近正态性,样本量足够大时,估计效果有严格的理论保障。
- 充分性好:在分布形式未知时,矩估计是为数不多的可行估计方法,是参数估计的“兜底方法”。
缺点
- 估计不唯一:同一个参数可以通过不同阶的矩得到不同的矩估计量(如泊松分布的 \(\lambda\),可通过一阶矩得到 \(\hat{\lambda}=\bar{X}\),也可通过二阶矩得到 \(\hat{\lambda}=S^2\)),缺乏统一的选择准则,通常优先选择低阶矩。
- 小样本性质较差:多数矩估计量是有偏的(如样本二阶中心矩),小样本下估计精度通常低于极大似然估计、无偏估计等方法。
- 信息利用不充分:仅使用了总体的前k阶矩,没有利用总体分布的全部信息,当总体分布形式已知时,估计效率通常低于极大似然估计。
- 存在局限性:当总体的矩不存在时(如柯西分布,期望不存在),无法使用矩估计。
八、矩估计核心知识点汇总表
| 分类 | 核心内容 | 关键公式/结论 |
|---|---|---|
| 理论基础 | 辛钦大数定律 | 样本矩依概率收敛于对应总体矩:\(a_j \stackrel{P}{\to} \mu_j\),\(m_j \stackrel{P}{\to} \alpha_j\) |
| 核心定义-总体矩 | 总体 \(j\) 阶原点矩 | \(\mu_j = E(X_1^j)\),\(\mu_1=E(X_1)\)(总体均值) |
| 核心定义-总体矩 | 总体 \(j\) 阶中心矩 | \(\alpha_j = E[(X_1-\mu_1)^j]\),\(\alpha_2=Var(X_1)\)(总体方差) |
| 核心定义-样本矩 | 样本 \(j\) 阶原点矩 | \(a_j = \frac{1}{n}\sum_{i=1}^n X_i^j\),\(a_1=\bar{X}\)(样本均值) |
| 核心定义-样本矩 | 样本 \(j\) 阶中心矩 | \(m_j = \frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^j\),\(m_2=\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2\)(样本二阶中心矩) |
| 核心原理 | 替换原则 | 用样本矩替换总体矩,用样本矩的连续函数替换总体矩的同一函数 |
| 核心性质 | 无偏性 | 样本原点矩 \(a_j\) 是 \(\mu_j\) 的无偏估计;样本中心矩 \(m_j\) 通常是有偏的(\(E(m_2)=\frac{n-1}{n}\sigma^2\)) |
| 核心性质 | 相合性 | 样本矩是对应总体矩的相合估计;矩估计量作为样本矩的连续函数,是待估参数的相合估计 |
| 核心性质 | 渐近正态性 | \(\sqrt{n}(a_j - \mu_j) \stackrel{d}{\to} N(0, \mu_{2j}-\mu_j^2)\),大样本下矩估计量近似服从正态分布 |
| 求解步骤 | 通用4步 | 1. 计算总体矩;2. 建立矩方程组;3. 解方程组;4. 替换得到矩估计 |
| 典型分布- Laplace分布 \(LA(\mu,\sigma)\) | 矩估计结果 | \(\hat{\mu}=\bar{X}\),\(\widehat{\sigma^2}=\frac{1}{2n}\sum_{i=1}^n (X_i-\bar{X})^2\) |
| 典型分布- 伽马分布 \(\Gamma(\lambda,\nu)\) | 矩估计结果 | \(\hat{\lambda}=\frac{\bar{X}}{S^2}\),\(\hat{\nu}=\frac{\bar{X}^2}{S^2}\) |
| 典型分布- 均匀分布 \(R(\theta_1,\theta_2)\) | 矩估计结果 | \(\hat{\theta}_1=\bar{X}-\sqrt{3}S\),\(\hat{\theta}_2=\bar{X}+\sqrt{3}S\) |
| 典型分布- 超几何分布 \(HG(n,N,m)\) | 矩估计结果 | \(\hat{N}=\frac{nm}{\bar{X}}\) |
| 典型统计量- 相关系数 \(\rho\) | 矩估计结果 | 样本相关系数 \(\hat{\rho}=\frac{\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum_{i=1}^n (X_i-\bar{X})^2 \sum_{i=1}^n (Y_i-\bar{Y})^2}}\) |
posted on 2026-02-24 15:02 Indian_Mysore 阅读(0) 评论(0) 收藏 举报
浙公网安备 33010602011771号