WHY LEAST SQUARES?
为何选择最小二乘法?
基于物理观测推断自然现象、通过小样本分析估计大群体特征,是应用科学的核心问题。现象或群体的数值特征通常被称为参数,目标是设计利用观测值估计目标参数的函数或规则(即估计量)。
例如,全球人口的平均身高\(h\)是一个参数,估计\(h\)的一种方式是观测\(k\)个样本的身高:若\(h_i\)是第$ i$个样本的身高,则函数
即为\(h\)的一个估计量。此外,\(\hat{h}\)是线性估计量,因为它是观测值的线性函数。
优良估计量的性质
优良的估计量至少需满足两个条件:
- 无偏性:估计量的均值与真实参数一致;
- 最小方差:估计结果的离散程度尽可能小。
以估计墙上圆的圆心为例:让Larry、Moe、Curly各向圆投掷一支飞镖,通过飞镖落点判断最优估计量需结合投掷者的特点:
- Larry的落点集中(方差小),但存在左偏(有偏);
- Moe无偏,但落点分散(方差大);
- Curly无偏且落点集中(方差小)。
由此可见:
- Larry因有偏,不是可接受的估计量;
- Moe和Curly均无偏,但Curly的方差更小,是最小方差无偏估计量,因此更优。
后续将通过概率论中关于随机变量$ X \(和\) Y $的标准术语,对这些概念进行更形式化的阐述。
基本统计定义
- \(E[X] = \mu_X\)表示\(X\)的均值(或期望)。
- \(\text{Var}[X] = E\left[(X - \mu_X)^2\right] = E[X^2] - \mu_X^2\)是\(X\)的方差。
- \(\text{Cov}[X,Y] = E\left[(X - \mu_X)(Y - \mu_Y)\right] = E[XY] - \mu_X\mu_Y\)是\(X\)与\(Y\)的协方差。
最小方差无偏估计量
设\(\hat{\theta}\)(作为随机变量)是参数\(\theta\)的一个估计量:
- 若\(E[\hat{\theta}] = \theta\),则称\(\hat{\theta}\)是\(\theta\)的无偏估计量;
- 若对\(\theta\)的所有无偏估计量\(\hat{\phi}\),都满足\(\text{Var}[\hat{\theta}] \leq \text{Var}[\hat{\phi}]\),则称\(\hat{\theta}\)是\(\theta\)的最小方差无偏估计量。
最小二乘法的合理性
这些概念可精准解释“最小二乘法是拟合观测数据的最优方法”的原因:
假设变量\(Y\)与其他变量\(X_1,X_2,\dots,X_n\)存在(或假设存在)线性关系:
其中\(\beta_i\)是未知常数(参数)。假设\(X_i\)的取值无误差或变异性,可被精确观测或指定;但受测量误差影响,\(Y\)的取值无法被精确观测,实际观测值为:
其中\(\varepsilon\)是表示测量误差的随机变量。
示例:通过测量物体在不同时间\(T\)的位移\(D\)来确定其速度\(v\),线性关系为\(D = vT\)。时间\(T\)可被精确设定(如\(T_1=1\)秒、\(T_2=2\)秒等),但位移观测值会包含小的测量误差,即实际观测位移满足\(d = D + \varepsilon = vT + \varepsilon\)。
一般化问题
为确定式(5.14.1)中的参数\(\beta_k\),在\(m\)个不同点\(\boldsymbol{X}_i = (x_{i1},x_{i2},\dots,x_{in}) \in \mathbb{R}^n\)(\(x_{ij}\)是第\(i\)次观测中\(X_j\)的取值)观测\(Y\)。若\(y_i\)表示第\(i\)次观测\(Y\)的结果,则根据式(5.14.2)有:
模型说明
式(5.14.1)被称为无截距模型,更一般的\(Y = \beta_0 + \beta_1X_1 + \dots + \beta_nX_n\)被称为有截距模型。由于有截距模型的分析与无截距模型无显著差异,本文仅讨论无截距模型,有截距模型的分析留给读者自行推导。
误差假设与模型表示
\(\varepsilon_i\)是第\(i\)次观测(或测量)误差对应的随机变量。通常可合理假设:观测误差之间互不相关,且具有共同方差(无需已知)与零均值。即:
令
则式(5.14.3)可表示为\(\boldsymbol{y} = \boldsymbol{X}_{m \times n}\boldsymbol{\beta} + \boldsymbol{\varepsilon}\)。实际中,观测点\(\boldsymbol{X}_i\)的选取几乎总能保证\(\text{rank}(\boldsymbol{X}_{m \times n}) = n\),因此标准线性模型的完整形式为:
其中约定:
核心问题与高斯的发现
我们需要确定\(\boldsymbol{\beta}\)各分量的最优(最小方差)线性无偏估计量(即\(y_i\)的线性函数)。高斯在1821年发现,最小二乘解恰好满足这一要求。
高斯-马尔可夫定理
对于标准线性模型(5.14.4),\(\beta_i\)的最小方差线性无偏估计量是向量\(\hat{\boldsymbol{\beta}} = (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y} = \boldsymbol{X}^\dagger\boldsymbol{y}\)的第\(i\)个分量\(\hat{\beta}_i\)。换言之,\(\boldsymbol{\beta}\)的最优线性无偏估计量是\(\boldsymbol{X}\hat{\boldsymbol{\beta}} = \boldsymbol{y}\)的最小二乘解。
定理证明
- 线性性与无偏性:
\(\hat{\boldsymbol{\beta}} = \boldsymbol{X}^\dagger\boldsymbol{y}\)是\(\boldsymbol{\beta}\)的线性估计量,因为每个分量\(\hat{\beta}_i = \sum_k [\boldsymbol{X}^\dagger]_{ik}y_k\)是观测值的线性函数。
无偏性可通过期望的线性性推导:
因此
- 最小方差性:
设\(\boldsymbol{\beta}^*\)是\(\boldsymbol{\beta}\)的任意线性无偏估计量。线性性意味着存在矩阵\(\boldsymbol{L}_{n \times m}\)使得\(\boldsymbol{\beta}^* = \boldsymbol{L}\boldsymbol{y}\);无偏性要求\(\boldsymbol{\beta} = E[\boldsymbol{\beta}^*] = E[\boldsymbol{L}\boldsymbol{y}] = \boldsymbol{L}E[\boldsymbol{y}] = \boldsymbol{L}\boldsymbol{X}\boldsymbol{\beta}\),且该式对\(\boldsymbol{\beta}\)的任意分量成立,故\(\boldsymbol{L}\boldsymbol{X} = \boldsymbol{I}_n\)。
由\(\text{Cov}[\varepsilon_i,\varepsilon_j] = 0\ (i\neq j)\),可得:
结合“当\(\text{Cov}[W,Z] = 0\)时,\(\text{Var}[aW + bZ] = a^2\text{Var}[W] + b^2\text{Var}[Z]\)”,可得:
由于\(\boldsymbol{L}\boldsymbol{X} = \boldsymbol{I}\),\(\text{Var}[\beta_i^*]\)最小当且仅当\(\boldsymbol{L}_{i*}\)是方程组\(\boldsymbol{z}^T\boldsymbol{X} = \boldsymbol{e}_i^T\)的最小范数解。由(5.12.17)可知,唯一的最小范数解为\(\boldsymbol{z}^T = \boldsymbol{e}_i^T\boldsymbol{X}^\dagger = \boldsymbol{X}_{*i}^\dagger\),故\(\text{Var}[\beta_i^*]\)最小当且仅当\(\boldsymbol{L}_{i*} = \boldsymbol{X}_{*i}^\dagger\)。
由于该结论对\(i=1,2,\dots,m\)均成立,因此\(\boldsymbol{L} = \boldsymbol{X}^\dagger\)。即\(\hat{\boldsymbol{\beta}} = \boldsymbol{X}^\dagger\boldsymbol{y}\)的分量是\(\boldsymbol{\beta}\)各参数的(唯一)最小方差线性无偏估计量。
直观解释
核心思想:像投飞镖一样理解估计问题
想象你要估计墙上圆靶的圆心(真实参数),但只能通过投飞镖(观测数据)来猜测。每次投掷都有随机误差(测量误差)。
好估计的标准:
- 无偏:平均落点正好在圆心。
- 集中:落点尽可能聚集在圆心周围(方差小)。
比如:
- Larry:落点密集但整体偏左 → 有偏,不可取。
- Moe:平均落点在圆心,但落点分散 → 无偏但方差大。
- Curly:平均落点在圆心,且落点集中 → 无偏且方差小(最优)。
最小二乘法就是找到“Curly”那样的估计方法。
最小二乘法的场景
假设我们想通过实验确定物理规律,比如:
- 目标:找出速度 \(v\)(未知参数)。
- 实验:在不同时间 \(T\)(精确控制)测量位移 \(D\)。
- 现实:位移测量总有误差 \(\varepsilon\),所以观测值是 \(d = vT + \varepsilon\)。
我们做了 \(m\) 次实验,得到数据点 \((T_1, d_1), (T_2, d_2), \dots\)。如何从这些带噪声的数据中最好地估计 \(v\)?
为什么是“最小二乘”?
直观上,我们希望找一条直线 \(d = vT\),让所有数据点都尽量靠近它。但如何定义“靠近”?
- 最简单:让误差之和最小?但正负误差会抵消。
- 更好:让误差的平方和最小 → 这就是“最小二乘”。
平方的好处:
- 惩罚大误差(平方放大)。
- 数学上好处理(可导、凸函数)。
- 对应了“方差最小”的目标。
高斯-马尔可夫定理的直观解释
该定理说:在满足以下条件时,最小二乘估计是所有线性无偏估计中方差最小的(即最稳定、最精确的):
- 线性关系:真实模型是 \(y = X\beta + \varepsilon\)(\(X\) 是已知变量,\(\beta\) 是未知参数)。
- 误差假设:
- 误差 \(\varepsilon\) 均值为零(无系统偏差)。
- 误差之间相互独立(一次实验的误差不影响下一次)。
- 误差方差相同(\(\sigma^2\))。
为什么此时最小二乘最优?
比喻:多人合作测量
假设你要测量一根棍子的长度 \(\beta\),找了 \(m\) 个人用带误差的尺子各自测量:
- 第 \(i\) 个人报告:\(y_i = \beta + \varepsilon_i\)。
- 如何合并他们的结果得到最优估计?
直觉:给更可靠的人更高权重?但这里所有人误差方差相同,所以平等对待(取平均)是最优的。
最小二乘法在这种线性模型中,自动给出了最优的“加权平均”,权重由 \(X\) 的结构决定。
技术核心的简化版本
对于模型 \(y = X\beta + \varepsilon\),最小二乘解为:
为什么是这个形式?
-
线性与无偏:
\(\hat{\beta}\) 是 \(y\) 的线性组合。因为 \(E[y] = X\beta\),所以 \(E[\hat{\beta}] = \beta\)(无偏)。 -
方差最小:
可以证明,任何其他线性无偏估计 \(\tilde{\beta} = Ly\),必须满足 \(LX = I\)(无偏条件)。
然后计算方差:\(\text{Var}[\tilde{\beta}] = \sigma^2 LL^T\)。
在 \(LX=I\) 的约束下,使方差最小化,等价于让 \(L\) 的每一行长度最小。
这个优化问题的解正好是 \(L = (X^TX)^{-1}X^T\),即最小二乘的系数矩阵。
几何视角:
将 \(y\) 投影到 \(X\) 的列空间(所有可能线性组合构成的空间),投影就是 \(X\hat{\beta}\)。
这个投影是唯一的,并且使得残差 \(y - X\hat{\beta}\) 垂直于整个空间,从而残差平方和最小。
这种投影操作恰好给出了方差最小的无偏估计。
总结成三点
- 目标明确:我们要找的是无偏且最稳定(方差最小)的线性估计。
- 条件合理:当误差没有系统偏差、相互独立、波动幅度相同时,最小二乘法正好满足上述目标。
- 几何直观:最小二乘相当于把数据投影到模型空间,得到最“贴合”的估计,且避免了不必要的波动。
所以,最小二乘不是随便凑出来的方法,而是在很自然的假设下,数学上推导出的最优线性估计方法。这就是为什么它成为科学和工程中模型拟合的基础工具。

浙公网安备 33010602011771号