4、Normal Equation 的向量投影解法与几何和直觉解释

参考:https://zhuanlan.zhihu.com/p/269232332

线性回归的正交方程 ( Normal Equation ) 推导一文中提到使用 向量投影 的方法一步就能推导出 正交方程。从向量投影的角度,体现 线性回归 的本质。

预备知识:向量投影

 

 平面A由基向量 [公式] 所张成(Span ),换言之,平面A是 [公式] 的列空间。

[公式] 是平面外的一点, [公式][公式] 在平面上的投影, [公式] ,求 [公式]

[公式][公式][公式] 之间的距离 :[公式]

用人话来解释下: [公式] 构建了一个平面,平面内的任何向量,它俩均可通过 线性组合 构建出来,换言之,平面外的向量它俩就搞不定了。向量 [公式]  在 [公式] 构建的平面外,不论 [公式] 如何组合都不可能组合出 [公式]这个问题 无解。但是,可以组合出  [公式]  在平面内的投影  [公式] ,这是平面内最接近  [公式]  的点, [公式]  是 [公式][公式] 之间的偏差。于是,问题就变成了:如何找到组合 [公式] ,使[公式]

线性代数的初心是解决: [公式] ,在明显无解的情况下(方程数 > 变量数,超定),退而求其次,解一个可以解决的近似问题: [公式]

[公式] 垂直于 [公式]

[公式]

[公式]

[公式]

[公式]

[公式]

[公式]

----------------------------------------------------------------------------------------------------------------------------------------------

言归正传,回到线性回归的问题:

线性回归要解决的问题是:找到合适的  [公式]  ,使 [公式]

实际应用中,方程的数量(样本数)经常远大于变量 / 未知数的数量(特征数),例如以下数据情况:100条数据10个字段,意味着100个方程10个未知数,显然,这样的超定方程组是无解的(over determined ),所以我们不得不改变目标,寻找一个最“接近”的近似解 [公式]使得 [公式][公式][公式][公式] 的列空间的投影

[公式] 代入 [公式] ,将 [公式]  代入 [公式] ,将 [公式] 代入 [公式] ,于是就得到 Normal Equation:

[公式]

翻译成线性回归的语境:由于 [公式] 不在 [公式] 所张成的空间内,不论 [公式] 如何进行线性组合,都不可能组合出 [公式] ,但是,可以组合出 [公式] 在平面内的投影 [公式] ,线性回归的目标就是找到参数 [公式] ,使[公式]

在理解了线性回归的投影本质后,使用向量投影公式,只需一步就可以得到Normal Equation: [公式]

也可以表示为: [公式] ,其中 [公式] ,被成为伪逆矩阵

---------------------------------------------------------------------------------------------------------------------------------------------------

最后从直觉的角度再来看一下 Normal Equation 和伪逆矩阵,方便记忆:

回顾我们的出发点 [公式] ,如果 [公式] 可逆,两边同时乘以 [公式] ,显然 [公式]

但在机器学习中,经常面对的是 超定( Overdetermined )方程,方程数( 数据点的数量,行,记录 )大于未知数( 即特征数,列,字段 ),非方阵,[公式] 不可逆。

[公式] 是对称矩阵,也称 Gram 矩阵,它是 [公式] 的方阵,大概率可逆,因此,我们很自然的希望在方程两边同时乘以 [公式] ,得到: [公式] ,再两边同时乘以 [公式] 就能到 Normal Equation 。这个推导并不严谨, [公式] 可能不可逆,但可作为快速记忆公式的方法。

posted @ 2022-06-26 17:42  zhangyuxue  阅读(29)  评论(0编辑  收藏  举报