WHY LEAST SQUARES?

为何选择最小二乘法?

基于物理观测推断自然现象、通过小样本分析估计大群体特征,是应用科学的核心问题。现象或群体的数值特征通常被称为参数,目标是设计利用观测值估计目标参数的函数或规则(即估计量)。

例如,全球人口的平均身高\(h\)是一个参数,估计\(h\)的一种方式是观测\(k\)个样本的身高:若\(h_i\)是第$ i$个样本的身高,则函数

\[\hat{h}(h_1, h_2, \dots, h_k) = \frac{1}{k}\left( \sum_{i=1}^k h_i \right) \]

即为\(h\)的一个估计量。此外,\(\hat{h}\)线性估计量,因为它是观测值的线性函数。

优良估计量的性质

优良的估计量至少需满足两个条件:

  1. 无偏性:估计量的均值与真实参数一致;
  2. 最小方差:估计结果的离散程度尽可能小。

以估计墙上圆的圆心为例:让Larry、Moe、Curly各向圆投掷一支飞镖,通过飞镖落点判断最优估计量需结合投掷者的特点:

  • Larry的落点集中(方差小),但存在左偏(有偏);
  • Moe无偏,但落点分散(方差大);
  • Curly无偏且落点集中(方差小)。

由此可见:

  • Larry因有偏,不是可接受的估计量;
  • Moe和Curly均无偏,但Curly的方差更小,是最小方差无偏估计量,因此更优。

后续将通过概率论中关于随机变量$ X \(和\) Y $的标准术语,对这些概念进行更形式化的阐述。

基本统计定义

  • \(E[X] = \mu_X\)表示\(X\)均值(或期望)
  • \(\text{Var}[X] = E\left[(X - \mu_X)^2\right] = E[X^2] - \mu_X^2\)\(X\)方差
  • \(\text{Cov}[X,Y] = E\left[(X - \mu_X)(Y - \mu_Y)\right] = E[XY] - \mu_X\mu_Y\)\(X\)\(Y\)协方差

最小方差无偏估计量

\(\hat{\theta}\)(作为随机变量)是参数\(\theta\)的一个估计量:

  • \(E[\hat{\theta}] = \theta\),则称\(\hat{\theta}\)\(\theta\)无偏估计量
  • 若对\(\theta\)的所有无偏估计量\(\hat{\phi}\),都满足\(\text{Var}[\hat{\theta}] \leq \text{Var}[\hat{\phi}]\),则称\(\hat{\theta}\)\(\theta\)最小方差无偏估计量

最小二乘法的合理性

这些概念可精准解释“最小二乘法是拟合观测数据的最优方法”的原因:
假设变量\(Y\)与其他变量\(X_1,X_2,\dots,X_n\)存在(或假设存在)线性关系:

\[Y = \beta_1X_1 + \dots + \beta_nX_n \tag{5.14.1} \]

其中\(\beta_i\)是未知常数(参数)。假设\(X_i\)的取值无误差或变异性,可被精确观测或指定;但受测量误差影响,\(Y\)的取值无法被精确观测,实际观测值为:

\[y = Y + \varepsilon = \beta_1X_1 + \dots + \beta_nX_n + \varepsilon \tag{5.14.2} \]

其中\(\varepsilon\)是表示测量误差的随机变量。

示例:通过测量物体在不同时间\(T\)的位移\(D\)来确定其速度\(v\),线性关系为\(D = vT\)。时间\(T\)可被精确设定(如\(T_1=1\)秒、\(T_2=2\)秒等),但位移观测值会包含小的测量误差,即实际观测位移满足\(d = D + \varepsilon = vT + \varepsilon\)

一般化问题

为确定式(5.14.1)中的参数\(\beta_k\),在\(m\)个不同点\(\boldsymbol{X}_i = (x_{i1},x_{i2},\dots,x_{in}) \in \mathbb{R}^n\)\(x_{ij}\)是第\(i\)次观测中\(X_j\)的取值)观测\(Y\)。若\(y_i\)表示第\(i\)次观测\(Y\)的结果,则根据式(5.14.2)有:

\[y_i = \beta_1x_{i1} + \dots + \beta_nx_{in} + \varepsilon_i,\quad i=1,2,\dots,m \tag{5.14.3} \]

模型说明

式(5.14.1)被称为无截距模型,更一般的\(Y = \beta_0 + \beta_1X_1 + \dots + \beta_nX_n\)被称为有截距模型。由于有截距模型的分析与无截距模型无显著差异,本文仅讨论无截距模型,有截距模型的分析留给读者自行推导。

误差假设与模型表示

\(\varepsilon_i\)是第\(i\)次观测(或测量)误差对应的随机变量。通常可合理假设:观测误差之间互不相关,且具有共同方差(无需已知)与零均值。即:

\[E[\varepsilon_i] = 0 \ (\forall i), \quad \text{Cov}[\varepsilon_i,\varepsilon_j] = \begin{cases} \sigma^2 & i=j, \\ 0 & i\neq j. \end{cases}\]

\[\boldsymbol{y} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix},\ \boldsymbol{X} = \begin{pmatrix} x_{11} & x_{12} & \dots & x_{1n} \\ x_{21} & x_{22} & \dots & x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \dots & x_{mn} \end{pmatrix},\ \boldsymbol{\beta} = \begin{pmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_n \end{pmatrix},\ \boldsymbol{\varepsilon} = \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_m \end{pmatrix}, \]

则式(5.14.3)可表示为\(\boldsymbol{y} = \boldsymbol{X}_{m \times n}\boldsymbol{\beta} + \boldsymbol{\varepsilon}\)。实际中,观测点\(\boldsymbol{X}_i\)的选取几乎总能保证\(\text{rank}(\boldsymbol{X}_{m \times n}) = n\),因此标准线性模型的完整形式为:

\[\boldsymbol{y} = \boldsymbol{X}_{m \times n}\boldsymbol{\beta} + \boldsymbol{\varepsilon},\quad \text{满足}\ \begin{cases} \text{rank}(\boldsymbol{X}) = n, \\ E[\boldsymbol{\varepsilon}] = 0, \\ \text{Cov}[\boldsymbol{\varepsilon}] = \sigma^2\boldsymbol{I}, \end{cases} \tag{5.14.4}\]

其中约定:

\[E[\boldsymbol{\varepsilon}] = \begin{pmatrix} E[\varepsilon_1] \\ E[\varepsilon_2] \\ \vdots \\ E[\varepsilon_m] \end{pmatrix},\quad \text{Cov}[\boldsymbol{\varepsilon}] = \begin{pmatrix} \text{Cov}[\varepsilon_1,\varepsilon_1] & \text{Cov}[\varepsilon_1,\varepsilon_2] & \dots & \text{Cov}[\varepsilon_1,\varepsilon_m] \\ \text{Cov}[\varepsilon_2,\varepsilon_1] & \text{Cov}[\varepsilon_2,\varepsilon_2] & \dots & \text{Cov}[\varepsilon_2,\varepsilon_m] \\ \vdots & \vdots & \ddots & \vdots \\ \text{Cov}[\varepsilon_m,\varepsilon_1] & \text{Cov}[\varepsilon_m,\varepsilon_2] & \dots & \text{Cov}[\varepsilon_m,\varepsilon_m] \end{pmatrix}. \]

核心问题与高斯的发现

我们需要确定\(\boldsymbol{\beta}\)各分量的最优(最小方差)线性无偏估计量(即\(y_i\)的线性函数)。高斯在1821年发现,最小二乘解恰好满足这一要求。

高斯-马尔可夫定理

对于标准线性模型(5.14.4),\(\beta_i\)的最小方差线性无偏估计量是向量\(\hat{\boldsymbol{\beta}} = (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y} = \boldsymbol{X}^\dagger\boldsymbol{y}\)的第\(i\)个分量\(\hat{\beta}_i\)。换言之,\(\boldsymbol{\beta}\)的最优线性无偏估计量是\(\boldsymbol{X}\hat{\boldsymbol{\beta}} = \boldsymbol{y}\)的最小二乘解。

定理证明

  1. 线性性与无偏性
    \(\hat{\boldsymbol{\beta}} = \boldsymbol{X}^\dagger\boldsymbol{y}\)\(\boldsymbol{\beta}\)的线性估计量,因为每个分量\(\hat{\beta}_i = \sum_k [\boldsymbol{X}^\dagger]_{ik}y_k\)是观测值的线性函数。
    无偏性可通过期望的线性性推导:

\[E[\boldsymbol{y}] = E[\boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}] = \boldsymbol{X}\boldsymbol{\beta} + E[\boldsymbol{\varepsilon}] = \boldsymbol{X}\boldsymbol{\beta}, \]

因此

\[E[\hat{\boldsymbol{\beta}}] = E[\boldsymbol{X}^\dagger\boldsymbol{y}] = \boldsymbol{X}^\dagger E[\boldsymbol{y}] = \boldsymbol{X}^\dagger\boldsymbol{X}\boldsymbol{\beta} = (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{X}\boldsymbol{\beta} = \boldsymbol{\beta}. \]

  1. 最小方差性
    \(\boldsymbol{\beta}^*\)\(\boldsymbol{\beta}\)的任意线性无偏估计量。线性性意味着存在矩阵\(\boldsymbol{L}_{n \times m}\)使得\(\boldsymbol{\beta}^* = \boldsymbol{L}\boldsymbol{y}\);无偏性要求\(\boldsymbol{\beta} = E[\boldsymbol{\beta}^*] = E[\boldsymbol{L}\boldsymbol{y}] = \boldsymbol{L}E[\boldsymbol{y}] = \boldsymbol{L}\boldsymbol{X}\boldsymbol{\beta}\),且该式对\(\boldsymbol{\beta}\)的任意分量成立,故\(\boldsymbol{L}\boldsymbol{X} = \boldsymbol{I}_n\)

\(\text{Cov}[\varepsilon_i,\varepsilon_j] = 0\ (i\neq j)\),可得:

\[\text{Cov}[y_i,y_j] = \begin{cases} E[(y_i - \mu_{y_i})^2] = E[\varepsilon_i^2] = \text{Var}[\varepsilon_i] = \sigma^2 & i=j, \\ E[(y_i - \mu_{y_i})(y_j - \mu_{y_j})] = E[\varepsilon_i\varepsilon_j] = 0 & i\neq j. \tag{5.14.5} \end{cases}\]

结合“当\(\text{Cov}[W,Z] = 0\)时,\(\text{Var}[aW + bZ] = a^2\text{Var}[W] + b^2\text{Var}[Z]\)”,可得:

\[\text{Var}[\beta_i^*] = \text{Var}[\boldsymbol{L}_{i*}\boldsymbol{y}] = \text{Var}\left[\sum_{k=1}^m l_{ik}y_k\right] = \sigma^2\sum_{k=1}^m l_{ik}^2 = \sigma^2\|\boldsymbol{L}_{i*}\|_2^2. \]

由于\(\boldsymbol{L}\boldsymbol{X} = \boldsymbol{I}\)\(\text{Var}[\beta_i^*]\)最小当且仅当\(\boldsymbol{L}_{i*}\)是方程组\(\boldsymbol{z}^T\boldsymbol{X} = \boldsymbol{e}_i^T\)的最小范数解。由(5.12.17)可知,唯一的最小范数解为\(\boldsymbol{z}^T = \boldsymbol{e}_i^T\boldsymbol{X}^\dagger = \boldsymbol{X}_{*i}^\dagger\),故\(\text{Var}[\beta_i^*]\)最小当且仅当\(\boldsymbol{L}_{i*} = \boldsymbol{X}_{*i}^\dagger\)

由于该结论对\(i=1,2,\dots,m\)均成立,因此\(\boldsymbol{L} = \boldsymbol{X}^\dagger\)。即\(\hat{\boldsymbol{\beta}} = \boldsymbol{X}^\dagger\boldsymbol{y}\)的分量是\(\boldsymbol{\beta}\)各参数的(唯一)最小方差线性无偏估计量。

直观解释

核心思想:像投飞镖一样理解估计问题

想象你要估计墙上圆靶的圆心(真实参数),但只能通过投飞镖(观测数据)来猜测。每次投掷都有随机误差(测量误差)。

好估计的标准

  1. 无偏:平均落点正好在圆心。
  2. 集中:落点尽可能聚集在圆心周围(方差小)。

比如:

  • Larry:落点密集但整体偏左 → 有偏,不可取。
  • Moe:平均落点在圆心,但落点分散 → 无偏但方差大
  • Curly:平均落点在圆心,且落点集中 → 无偏且方差小(最优)。

最小二乘法就是找到“Curly”那样的估计方法


最小二乘法的场景

假设我们想通过实验确定物理规律,比如:

  • 目标:找出速度 \(v\)(未知参数)。
  • 实验:在不同时间 \(T\)(精确控制)测量位移 \(D\)
  • 现实:位移测量总有误差 \(\varepsilon\),所以观测值是 \(d = vT + \varepsilon\)

我们做了 \(m\) 次实验,得到数据点 \((T_1, d_1), (T_2, d_2), \dots\)。如何从这些带噪声的数据中最好地估计 \(v\)


为什么是“最小二乘”?

直观上,我们希望找一条直线 \(d = vT\),让所有数据点都尽量靠近它。但如何定义“靠近”?

  • 最简单:让误差之和最小?但正负误差会抵消。
  • 更好:让误差的平方和最小 → 这就是“最小二乘”。

平方的好处

  1. 惩罚大误差(平方放大)。
  2. 数学上好处理(可导、凸函数)。
  3. 对应了“方差最小”的目标。

高斯-马尔可夫定理的直观解释

该定理说:在满足以下条件时,最小二乘估计是所有线性无偏估计中方差最小的(即最稳定、最精确的)

  1. 线性关系:真实模型是 \(y = X\beta + \varepsilon\)\(X\) 是已知变量,\(\beta\) 是未知参数)。
  2. 误差假设
    • 误差 \(\varepsilon\) 均值为零(无系统偏差)。
    • 误差之间相互独立(一次实验的误差不影响下一次)。
    • 误差方差相同(\(\sigma^2\))。

为什么此时最小二乘最优?

比喻:多人合作测量

假设你要测量一根棍子的长度 \(\beta\),找了 \(m\) 个人用带误差的尺子各自测量:

  • \(i\) 个人报告:\(y_i = \beta + \varepsilon_i\)
  • 如何合并他们的结果得到最优估计?

直觉:给更可靠的人更高权重?但这里所有人误差方差相同,所以平等对待(取平均)是最优的。
最小二乘法在这种线性模型中,自动给出了最优的“加权平均”,权重由 \(X\) 的结构决定。


技术核心的简化版本

对于模型 \(y = X\beta + \varepsilon\),最小二乘解为:

\[\hat{\beta} = (X^TX)^{-1}X^Ty \]

为什么是这个形式?

  1. 线性与无偏
    \(\hat{\beta}\)\(y\) 的线性组合。因为 \(E[y] = X\beta\),所以 \(E[\hat{\beta}] = \beta\)(无偏)。

  2. 方差最小
    可以证明,任何其他线性无偏估计 \(\tilde{\beta} = Ly\),必须满足 \(LX = I\)(无偏条件)。
    然后计算方差:\(\text{Var}[\tilde{\beta}] = \sigma^2 LL^T\)
    \(LX=I\) 的约束下,使方差最小化,等价于让 \(L\) 的每一行长度最小。
    这个优化问题的解正好是 \(L = (X^TX)^{-1}X^T\),即最小二乘的系数矩阵。

几何视角
\(y\) 投影到 \(X\) 的列空间(所有可能线性组合构成的空间),投影就是 \(X\hat{\beta}\)
这个投影是唯一的,并且使得残差 \(y - X\hat{\beta}\) 垂直于整个空间,从而残差平方和最小。
这种投影操作恰好给出了方差最小的无偏估计。


总结成三点

  1. 目标明确:我们要找的是无偏最稳定(方差最小)的线性估计。
  2. 条件合理:当误差没有系统偏差、相互独立、波动幅度相同时,最小二乘法正好满足上述目标。
  3. 几何直观:最小二乘相当于把数据投影到模型空间,得到最“贴合”的估计,且避免了不必要的波动。

所以,最小二乘不是随便凑出来的方法,而是在很自然的假设下,数学上推导出的最优线性估计方法。这就是为什么它成为科学和工程中模型拟合的基础工具。

posted @ 2025-12-24 16:15  小心桃子  阅读(2)  评论(0)    收藏  举报