WHY LEAST SQUARES?

为何选择最小二乘法？

基于物理观测推断自然现象、通过小样本分析估计大群体特征，是应用科学的核心问题。现象或群体的数值特征通常被称为参数，目标是设计利用观测值估计目标参数的函数或规则（即估计量）。

例如，全球人口的平均身高$h$是一个参数，估计$h$的一种方式是观测$k$个样本的身高：若$h_i$是第$ i$个样本的身高，则函数

\[\hat{h}(h_1, h_2, \dots, h_k) = \frac{1}{k}\left( \sum_{i=1}^k h_i \right) \]

即为$h$的一个估计量。此外，$\hat{h}$是线性估计量，因为它是观测值的线性函数。

优良估计量的性质

优良的估计量至少需满足两个条件：

无偏性：估计量的均值与真实参数一致；
最小方差：估计结果的离散程度尽可能小。

以估计墙上圆的圆心为例：让Larry、Moe、Curly各向圆投掷一支飞镖，通过飞镖落点判断最优估计量需结合投掷者的特点：

Larry的落点集中（方差小），但存在左偏（有偏）；
Moe无偏，但落点分散（方差大）；
Curly无偏且落点集中（方差小）。

由此可见：

Larry因有偏，不是可接受的估计量；
Moe和Curly均无偏，但Curly的方差更小，是最小方差无偏估计量，因此更优。

后续将通过概率论中关于随机变量$ X $和$ Y $的标准术语，对这些概念进行更形式化的阐述。

基本统计定义

$E[X] = \mu_X$表示$X$的均值（或期望）。
$\text{Var}[X] = E\left[(X - \mu_X)^2\right] = E[X^2] - \mu_X^2$是$X$的方差。
$\text{Cov}[X,Y] = E\left[(X - \mu_X)(Y - \mu_Y)\right] = E[XY] - \mu_X\mu_Y$是$X$与$Y$的协方差。

最小方差无偏估计量

设$\hat{\theta}$（作为随机变量）是参数$\theta$的一个估计量：

若$E[\hat{\theta}] = \theta$，则称$\hat{\theta}$是$\theta$的无偏估计量；
若对$\theta$的所有无偏估计量$\hat{\phi}$，都满足$\text{Var}[\hat{\theta}] \leq \text{Var}[\hat{\phi}]$，则称$\hat{\theta}$是$\theta$的最小方差无偏估计量。

最小二乘法的合理性

这些概念可精准解释“最小二乘法是拟合观测数据的最优方法”的原因：
假设变量$Y$与其他变量$X_1,X_2,\dots,X_n$存在（或假设存在）线性关系：

\[Y = \beta_1X_1 + \dots + \beta_nX_n \tag{5.14.1} \]

其中$\beta_i$是未知常数（参数）。假设$X_i$的取值无误差或变异性，可被精确观测或指定；但受测量误差影响，$Y$的取值无法被精确观测，实际观测值为：

\[y = Y + \varepsilon = \beta_1X_1 + \dots + \beta_nX_n + \varepsilon \tag{5.14.2} \]

其中$\varepsilon$是表示测量误差的随机变量。

示例：通过测量物体在不同时间$T$的位移$D$来确定其速度$v$，线性关系为$D = vT$。时间$T$可被精确设定（如$T_1=1$秒、$T_2=2$秒等），但位移观测值会包含小的测量误差，即实际观测位移满足$d = D + \varepsilon = vT + \varepsilon$。

一般化问题

为确定式(5.14.1)中的参数$\beta_k$，在$m$个不同点$\boldsymbol{X}_i = (x_{i1},x_{i2},\dots,x_{in}) \in \mathbb{R}^n$（$x_{ij}$是第$i$次观测中$X_j$的取值）观测$Y$。若$y_i$表示第$i$次观测$Y$的结果，则根据式(5.14.2)有：

\[y_i = \beta_1x_{i1} + \dots + \beta_nx_{in} + \varepsilon_i,\quad i=1,2,\dots,m \tag{5.14.3} \]

模型说明

式(5.14.1)被称为无截距模型，更一般的$Y = \beta_0 + \beta_1X_1 + \dots + \beta_nX_n$被称为有截距模型。由于有截距模型的分析与无截距模型无显著差异，本文仅讨论无截距模型，有截距模型的分析留给读者自行推导。

误差假设与模型表示

$\varepsilon_i$是第$i$次观测（或测量）误差对应的随机变量。通常可合理假设：观测误差之间互不相关，且具有共同方差（无需已知）与零均值。即：

\[E[\varepsilon_i] = 0 \ (\forall i), \quad \text{Cov}[\varepsilon_i,\varepsilon_j] = \begin{cases} \sigma^2 & i=j, \\ 0 & i\neq j. \end{cases}\]

令

\[\boldsymbol{y} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix},\ \boldsymbol{X} = \begin{pmatrix} x_{11} & x_{12} & \dots & x_{1n} \\ x_{21} & x_{22} & \dots & x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \dots & x_{mn} \end{pmatrix},\ \boldsymbol{\beta} = \begin{pmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_n \end{pmatrix},\ \boldsymbol{\varepsilon} = \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_m \end{pmatrix}, \]

则式(5.14.3)可表示为$\boldsymbol{y} = \boldsymbol{X}_{m \times n}\boldsymbol{\beta} + \boldsymbol{\varepsilon}$。实际中，观测点$\boldsymbol{X}_i$的选取几乎总能保证$\text{rank}(\boldsymbol{X}_{m \times n}) = n$，因此标准线性模型的完整形式为：

\[\boldsymbol{y} = \boldsymbol{X}_{m \times n}\boldsymbol{\beta} + \boldsymbol{\varepsilon},\quad \text{满足}\ \begin{cases} \text{rank}(\boldsymbol{X}) = n, \\ E[\boldsymbol{\varepsilon}] = 0, \\ \text{Cov}[\boldsymbol{\varepsilon}] = \sigma^2\boldsymbol{I}, \end{cases} \tag{5.14.4}\]

其中约定：

\[E[\boldsymbol{\varepsilon}] = \begin{pmatrix} E[\varepsilon_1] \\ E[\varepsilon_2] \\ \vdots \\ E[\varepsilon_m] \end{pmatrix},\quad \text{Cov}[\boldsymbol{\varepsilon}] = \begin{pmatrix} \text{Cov}[\varepsilon_1,\varepsilon_1] & \text{Cov}[\varepsilon_1,\varepsilon_2] & \dots & \text{Cov}[\varepsilon_1,\varepsilon_m] \\ \text{Cov}[\varepsilon_2,\varepsilon_1] & \text{Cov}[\varepsilon_2,\varepsilon_2] & \dots & \text{Cov}[\varepsilon_2,\varepsilon_m] \\ \vdots & \vdots & \ddots & \vdots \\ \text{Cov}[\varepsilon_m,\varepsilon_1] & \text{Cov}[\varepsilon_m,\varepsilon_2] & \dots & \text{Cov}[\varepsilon_m,\varepsilon_m] \end{pmatrix}. \]

核心问题与高斯的发现

我们需要确定$\boldsymbol{\beta}$各分量的最优（最小方差）线性无偏估计量（即$y_i$的线性函数）。高斯在1821年发现，最小二乘解恰好满足这一要求。

高斯-马尔可夫定理

对于标准线性模型(5.14.4)，$\beta_i$的最小方差线性无偏估计量是向量$\hat{\boldsymbol{\beta}} = (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y} = \boldsymbol{X}^\dagger\boldsymbol{y}$的第$i$个分量$\hat{\beta}_i$。换言之，$\boldsymbol{\beta}$的最优线性无偏估计量是$\boldsymbol{X}\hat{\boldsymbol{\beta}} = \boldsymbol{y}$的最小二乘解。

定理证明

线性性与无偏性：
$\hat{\boldsymbol{\beta}} = \boldsymbol{X}^\dagger\boldsymbol{y}$是$\boldsymbol{\beta}$的线性估计量，因为每个分量$\hat{\beta}_i = \sum_k [\boldsymbol{X}^\dagger]_{ik}y_k$是观测值的线性函数。
无偏性可通过期望的线性性推导：

\[E[\boldsymbol{y}] = E[\boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}] = \boldsymbol{X}\boldsymbol{\beta} + E[\boldsymbol{\varepsilon}] = \boldsymbol{X}\boldsymbol{\beta}, \]

因此

\[E[\hat{\boldsymbol{\beta}}] = E[\boldsymbol{X}^\dagger\boldsymbol{y}] = \boldsymbol{X}^\dagger E[\boldsymbol{y}] = \boldsymbol{X}^\dagger\boldsymbol{X}\boldsymbol{\beta} = (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{X}\boldsymbol{\beta} = \boldsymbol{\beta}. \]

最小方差性：
设$\boldsymbol{\beta}^*$是$\boldsymbol{\beta}$的任意线性无偏估计量。线性性意味着存在矩阵$\boldsymbol{L}_{n \times m}$使得$\boldsymbol{\beta}^* = \boldsymbol{L}\boldsymbol{y}$；无偏性要求$\boldsymbol{\beta} = E[\boldsymbol{\beta}^*] = E[\boldsymbol{L}\boldsymbol{y}] = \boldsymbol{L}E[\boldsymbol{y}] = \boldsymbol{L}\boldsymbol{X}\boldsymbol{\beta}$，且该式对$\boldsymbol{\beta}$的任意分量成立，故$\boldsymbol{L}\boldsymbol{X} = \boldsymbol{I}_n$。

由$\text{Cov}[\varepsilon_i,\varepsilon_j] = 0\ (i\neq j)$，可得：

\[\text{Cov}[y_i,y_j] = \begin{cases} E[(y_i - \mu_{y_i})^2] = E[\varepsilon_i^2] = \text{Var}[\varepsilon_i] = \sigma^2 & i=j, \\ E[(y_i - \mu_{y_i})(y_j - \mu_{y_j})] = E[\varepsilon_i\varepsilon_j] = 0 & i\neq j. \tag{5.14.5} \end{cases}\]

结合“当$\text{Cov}[W,Z] = 0$时，$\text{Var}[aW + bZ] = a^2\text{Var}[W] + b^2\text{Var}[Z]$”，可得：

\[\text{Var}[\beta_i^*] = \text{Var}[\boldsymbol{L}_{i*}\boldsymbol{y}] = \text{Var}\left[\sum_{k=1}^m l_{ik}y_k\right] = \sigma^2\sum_{k=1}^m l_{ik}^2 = \sigma^2\|\boldsymbol{L}_{i*}\|_2^2. \]

由于$\boldsymbol{L}\boldsymbol{X} = \boldsymbol{I}$，$\text{Var}[\beta_i^*]$最小当且仅当$\boldsymbol{L}_{i*}$是方程组$\boldsymbol{z}^T\boldsymbol{X} = \boldsymbol{e}_i^T$的最小范数解。由(5.12.17)可知，唯一的最小范数解为$\boldsymbol{z}^T = \boldsymbol{e}_i^T\boldsymbol{X}^\dagger = \boldsymbol{X}_{*i}^\dagger$，故$\text{Var}[\beta_i^*]$最小当且仅当$\boldsymbol{L}_{i*} = \boldsymbol{X}_{*i}^\dagger$。

由于该结论对$i=1,2,\dots,m$均成立，因此$\boldsymbol{L} = \boldsymbol{X}^\dagger$。即$\hat{\boldsymbol{\beta}} = \boldsymbol{X}^\dagger\boldsymbol{y}$的分量是$\boldsymbol{\beta}$各参数的（唯一）最小方差线性无偏估计量。

直观解释

核心思想：像投飞镖一样理解估计问题

想象你要估计墙上圆靶的圆心（真实参数），但只能通过投飞镖（观测数据）来猜测。每次投掷都有随机误差（测量误差）。

好估计的标准：

无偏：平均落点正好在圆心。
集中：落点尽可能聚集在圆心周围（方差小）。

比如：

Larry：落点密集但整体偏左 → 有偏，不可取。
Moe：平均落点在圆心，但落点分散 → 无偏但方差大。
Curly：平均落点在圆心，且落点集中 → 无偏且方差小（最优）。

最小二乘法就是找到“Curly”那样的估计方法。

最小二乘法的场景

假设我们想通过实验确定物理规律，比如：

目标：找出速度 $v$（未知参数）。
实验：在不同时间 $T$（精确控制）测量位移 $D$。
现实：位移测量总有误差 $\varepsilon$，所以观测值是 $d = vT + \varepsilon$。

我们做了 $m$ 次实验，得到数据点 $(T_1, d_1), (T_2, d_2), \dots$。如何从这些带噪声的数据中最好地估计 $v$？

为什么是“最小二乘”？

直观上，我们希望找一条直线 $d = vT$，让所有数据点都尽量靠近它。但如何定义“靠近”？

最简单：让误差之和最小？但正负误差会抵消。
更好：让误差的平方和最小 → 这就是“最小二乘”。

平方的好处：

惩罚大误差（平方放大）。
数学上好处理（可导、凸函数）。
对应了“方差最小”的目标。

高斯-马尔可夫定理的直观解释

该定理说：在满足以下条件时，最小二乘估计是所有线性无偏估计中方差最小的（即最稳定、最精确的）：

线性关系：真实模型是 $y = X\beta + \varepsilon$（$X$ 是已知变量，$\beta$ 是未知参数）。
误差假设：
- 误差 $\varepsilon$ 均值为零（无系统偏差）。
- 误差之间相互独立（一次实验的误差不影响下一次）。
- 误差方差相同（$\sigma^2$）。

为什么此时最小二乘最优？

比喻：多人合作测量

假设你要测量一根棍子的长度 $\beta$，找了 $m$ 个人用带误差的尺子各自测量：

第 $i$ 个人报告：$y_i = \beta + \varepsilon_i$。
如何合并他们的结果得到最优估计？

直觉：给更可靠的人更高权重？但这里所有人误差方差相同，所以平等对待（取平均）是最优的。
最小二乘法在这种线性模型中，自动给出了最优的“加权平均”，权重由 $X$ 的结构决定。

技术核心的简化版本

对于模型 $y = X\beta + \varepsilon$，最小二乘解为：

\[\hat{\beta} = (X^TX)^{-1}X^Ty \]

为什么是这个形式？

线性与无偏：
$\hat{\beta}$ 是 $y$ 的线性组合。因为 $E[y] = X\beta$，所以 $E[\hat{\beta}] = \beta$（无偏）。
方差最小：
可以证明，任何其他线性无偏估计 $\tilde{\beta} = Ly$，必须满足 $LX = I$（无偏条件）。
然后计算方差：$\text{Var}[\tilde{\beta}] = \sigma^2 LL^T$。
在 $LX=I$ 的约束下，使方差最小化，等价于让 $L$ 的每一行长度最小。
这个优化问题的解正好是 $L = (X^TX)^{-1}X^T$，即最小二乘的系数矩阵。

几何视角：
将 $y$ 投影到 $X$ 的列空间（所有可能线性组合构成的空间），投影就是 $X\hat{\beta}$。
这个投影是唯一的，并且使得残差 $y - X\hat{\beta}$ 垂直于整个空间，从而残差平方和最小。
这种投影操作恰好给出了方差最小的无偏估计。

总结成三点

目标明确：我们要找的是无偏且最稳定（方差最小）的线性估计。
条件合理：当误差没有系统偏差、相互独立、波动幅度相同时，最小二乘法正好满足上述目标。
几何直观：最小二乘相当于把数据投影到模型空间，得到最“贴合”的估计，且避免了不必要的波动。

所以，最小二乘不是随便凑出来的方法，而是在很自然的假设下，数学上推导出的最优线性估计方法。这就是为什么它成为科学和工程中模型拟合的基础工具。

posted @ 2025-12-24 16:15 小心桃子阅读(25) 评论(0) 收藏举报

刷新页面返回顶部

Nature

Hibike