线性拟合之最小二乘方法和最小距离方法

线性拟合即给定一组输入样本 ${\{(x_1, y_1), (x_2, y_2), ... ,(x_N, y_N)\}}$ ，求一个M阶多项式 $y=w_0 + w_1 * x + w_2 * x^2 + ... + w_M * x^M$ 的参数向量 $\overrightarrow{w}=[w_0, w_1, ... w_M]^T$ ，使得拟合误差最小。这个M阶多项式虽然是关于x的非线性（当 $M>=2$ 时）函数，但是是关于待求参数向量 $\overrightarrow{w}$ 的线性函数，所以叫“线性”拟合。而拟合误差根据具体应用可以选用不同的标准，最常见、也是教科书上提供的一种误差标准叫做最小化方差，由这个标准导出的就是最小二乘法（Lease Square， LS）；还有一种误差标准在轨迹点的拟合上用的比较多，应用于直线拟合情况，它的目标是最小化点到直线的距离和，本质上这也是一种最小二乘法。

最小化方差

我们将要拟合的多项式简写为 $y={\overrightarrow{w}}^T * \overrightarrow{x}$ ，其中向量 $\overrightarrow{x}=[1, x, x^2, ..., x^M]^T$ 。

因此，可以写出目标函数

$min\ {J} = \sum_{n=1}^{N}(y_n - \overrightarrow{w}^T * \overrightarrow{x_n})^2 \cdots \cdots (1)$

这是一个关于 $\overrightarrow{w}$ 的二次函数，通过对其求导数令结果等于0，即可求解。

$\frac{\partial{J}}{\partial{\overrightarrow{w}}}=-2\sum_{n=1}^{N}{(y_n - \overrightarrow{w}^T * \overrightarrow{x_n})*\overrightarrow{x_n}}=0 \cdots \cdots (2)$

得到

$\sum_{n=1}^{N}{(\overrightarrow{w}^T * \overrightarrow{x_n}*\overrightarrow{x_n})} = \sum_{n=1}^{N}{(y_n * \overrightarrow{x_n})} \cdots \cdots (3)$

注意到 $\overrightarrow{w}^T * \overrightarrow{x_n}$ 是个数，它的转置是它本身，因此上式等价于

$\sum_{n=1}^{N}{[(\overrightarrow{w}^T * \overrightarrow{x_n})*\overrightarrow{x_n}]} = \sum_{n=1}^{N}{[\overrightarrow{x_n} * (\overrightarrow{w}^T * \overrightarrow{x_n})]} = \sum_{n=1}^{N}{[\overrightarrow{x_n} * (\overrightarrow{x_n}^T * \overrightarrow{w})]} = [\sum_{n=1}^{N}{(\overrightarrow{x_n} * \overrightarrow{x_n}^T)]*\overrightarrow{w} = \sum_{n=1}^{N}{(y_n * \overrightarrow{x_n})} \cdots \cdots (4)$

如果我们定义两个记号，上式可进一步简化，记号定义如下：

$X = \begin{bmatrix} \overrightarrow{x_1} & \overrightarrow{x_2} & \cdots & \overrightarrow{x_N} \end{bmatrix}= \begin{bmatrix} 1 & 1 & \cdots & 1 \\ x_{11} & x_{21} & \cdots & x_{N1} \\ \vdots & \vdots & \cdots & \vdots \\ x_{1M} & x_{2M} & \cdots & x_{NM} \end{bmatrix}$

$Y = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{bmatrix}$

则上式可进一步简化为：

$(XX^T)*\overrightarrow{w} = XY \cdots \cdots (5)$

最后解得

$\overrightarrow{w} = (XX^T)^{-1}(XY) \cdots \cdots (6)$

对于直线拟合即M=1的情形，给出如下结论：

$\begin{bmatrix} w_0 \\ w_1 \end{bmatrix} = \frac{1}{N\sum{x_n^2} - (\sum{x_n})^2} \begin{bmatrix} (\sum{x_n^2}) * (\sum{y_n}) - (\sum{x_n}) * (\sum{x_ny_n}) \\ N(\sum{x_ny_n}) - (\sum{x_n})(\sum{y_n}) \end{bmatrix} \cdots \cdots (7)$

最小化点到直线的距离和

对于直线拟合问题，上面的最小化方差方法有几个缺点。第一，它假定了y的系数不为0，即直线不能垂直于x轴。第二，经过试验验证，当输入样本近似分布于一条垂直于x轴的直线附近时，拟合结果往往很不稳定。特别的，第三，对于轨迹点拟合问题，最小化方差没有很好的物理解释，而最小化点到直线的距离则可以很好的解释结果，而且也不存在第一点和第二点中的问题。

对于以上第三点的说明，考虑这样一个问题，假设输入样本为一系列的经纬度数据，x表示经度（或维度）值，y表示维度（或经度）值。现在要拟合出一条直线来近似求出轨迹点的前进方向。此时，用最小化点到直线的距离拟合出的结果似乎更能说明问题，而且当轨迹点垂直于x轴时，拟合结果也更稳定。下面具体说明求解过程。

设直线方程为 $ax + by + c = 0$ ，此时的优化目标为（为了使得目标函数连续可导，转化为最小化距离的平方和）：

$min\ J = \frac{\sum_{n=1}^{N}(ax_n + by_n + c)^2}{a^2 + b^2} \cdots \cdots (8)$

不失一般性，假设 $a^2 + b^2 = 1$ ，则上式无约束优化问题变为带等式约束的优化问题：

$min\ J = \sum_{n=1}^{N}(ax_n + by_n + c)^2 \cdots \cdots (9)$

$s.t. \ a^2 + b^2 = 1$

利用拉格朗日方法求解，拉格朗日函数为：

$L(a, b, c, \lambda) = \sum_{n=1}^{N}(ax_n + by_n + c)^2 + \lambda(a^2 + b^2 - 1) \cdots \cdots (10)$

根据拉格朗日方法，需要先对a、b、c参数求导，令导数等于0：

$\begin{align*} \frac{\partial{L}}{\partial{a}} & = 2\sum{(ax_n + by_n + c)x_n} + 2\lambda a & = 0 & \cdots \cdots (11) \\ \frac{\partial{L}}{\partial{b}} & = 2\sum{(ax_n + by_n + c)y_n} + 2\lambda b & = 0 & \cdots \cdots (12) \\ \frac{\partial{L}}{\partial{c}} & = 2\sum{(ax_n + by_n + c)} & = 0 & \cdots \cdots (13) \end{align*}$

由（13）式可得：

$c = -\frac{1}{N}\sum{(ax_n + by_n)} \cdots \cdots (14)$

记 $\overrightarrow{w} = [a, b]^T$ 、 $\overrightarrow{s} = [x, y]^T$ ，则 $c = -\frac{1}{N}\sum{\overrightarrow{w}^T * \overrightarrow{s_n}} = -\overrightarrow{w}^T * \overrightarrow{s_0}$ ，其中 $\overrightarrow{s_0} = \frac{1}{N}\sum{\overrightarrow{s_n}}$ ，带入拉格朗日函数得：

$L(a, b, c, \lambda) = \sum{(\overrightarrow{w}^T * \overrightarrow{s_n} - \overrightarrow{w}^T * \overrightarrow{s_0})^2} + \lambda (\overrightarrow{w}^T * \overrightarrow{w} - 1) \cdots \cdots (15)$

因此，

$\begin{align*} \frac{\partial{L(\overrightarrow{w}, \lambda)}}{\partial{\overrightarrow{w}}} & = 2\sum{[\overrightarrow{w}^T(\overrightarrow{s_n} - \overrightarrow{s_0})*(\overrightarrow{s_n} - \overrightarrow{s_0})]} + 2\lambda \overrightarrow{w} & \\ & = 2\sum{(\overrightarrow{s_n} - \overrightarrow{s_0})(\overrightarrow{s_n} - \overrightarrow{s_0})^T\overrightarrow{w} + 2\lambda \overrightarrow{w}} & \cdots \cdots (16)\\ & = 0 & \end{align*}$

利用与前面类似的技巧，记

$S = [\overrightarrow{s_1} - \overrightarrow{s_0}, \overrightarrow{s_2} - \overrightarrow{s_0}, \cdots, \overrightarrow{s_N} - \overrightarrow{s_0}] = \begin{bmatrix} x_1 - x_0 & x_2 - x_0 & \cdots & x_N - x_0 \\ y_1 - y_0 & y_2 - y_0 & \cdots & y_N - y_0] \end{bmatrix}$

则

$A = \sum{(\overrightarrow{s_n} - \overrightarrow{s_0})(\overrightarrow{s_n} - \overrightarrow{s_0})^T} = SS^T \cdots \cdots (17)$

上式可简化为：

$\frac{\partial{L(\overrightarrow{w}, \lambda)}}{\partial{\overrightarrow{w}}} = 2A\overrightarrow{w} + 2\lambda \overrightarrow{w} = 0 \cdots \cdots (18)$

推出：

$A\overrightarrow{w} = -\lambda \overrightarrow{w} \cdots \cdots (19)$

可以看出， $\overrightarrow{w}$ 是矩阵A的特征向量，而 $-\lambda$ 是对应的特征值。我们只需要求出A的特征向量，即得到参数a和b的值，然后带入（14）式即可求得c。

A是2X2的矩阵，我们知道它有两个特征值和两个特征向量，因此此问题有两个解。因为A是实对称矩阵，他的两个特征向量是正交的，这说明有两条互相垂直的直行分别对应原问题的两个局部极值点。其中，较小特征值对应的特征向量即为最优解。

值得注意的是，拉格朗日方法中，要求 $\frac{\partial{L}}{\partial{\lambda}} = a^2 + b^2 -1 = \begin{Vmatrix} w \end{Vmatrix} ^2 - 1= 0$ ，因此，在求出矩阵A的特征向量之后，还需要对特征向量归一化。由于我们的目的是求出直线参数a、b和c，其实归不归一化求出来的结果是一样的。

posted on 2015-08-08 14:29 balabala已被注册阅读(4518) 评论(0) 收藏举报

刷新页面返回顶部

kane1990