数据分析之最小二乘法---最小二乘法，数据分析的瑞士军刀

第二个故事的主角是欧拉(Euler)，拉普拉斯(Lapalace)，勒让德(Legendre)和高斯(Gauss)，故事发生的时间是十八世纪中到十九世纪初。十七、十八世纪是科学发展的黄金年代，微积分的发展和牛顿万有引力定律的建立，直接的推动了天文学和测地学的迅猛发展。当时的大科学家们都在考虑许多天文学上的问题。几个典型的问题如下：

土星和木星是太阳系中的大行星，由于相互吸引对各自的运动轨道产生了影响，许多大数学家，包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
勒让德承担了一个政府给的重要任务，测量通过巴黎的子午线的长度。
海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

这些天文学和测地学的问题，无不涉及到数据的多次测量、分析与计算；十七、十八世纪的天文观测，也积累了大量的数据需要进行分析和计算。很多年以前，学者们就已经经验性的认为，对于有误差的测量数据，多次测量取平均是比较好的处理方法。虽然缺乏理论上的论证，也不断的受到一些人的质疑，取平均作为一种异常直观的方式，已经被使用了千百年，在多年积累的数据的处理经验中也得到相当程度的验证，被认为是一种良好的数据处理方法。

【勒让德(Legendre)】

以上涉及的问题，我们直接关心的目标量往往无法直接观测，但是一些相关的量是可以观测到的，而通过建立数学模型，最终可以解出我们关心的量。这些问题都可以用如下数学模型描述：我们想估计的量是

如何通过多组观测数据求解出参数

但是面临的一个问题是，有

以上求解线性矛盾方程的问题在现在的本科生看来都不困难，就是统计学中的线性回归问题，直接用最小二乘法就解决了，可是即便如欧拉、拉普拉斯这些数学大牛，当时也未能对这些问题提出有效的解决方案。可见在科学研究中，要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的，基本思想就是认为测量中有误差，所以所有方程的累积误差为

累积误差 =

最小二乘使得误差平方和最小，并在各个方程的误差之间建立了一种平衡，从而防止某一个极端误差取得支配地位
计算中只要求偏导后求解线性方程组，计算过程明确便捷
最小二乘可以导出算术平均值作为估计值

对于最后一点，推理如下：假设真值为

最小二乘法发表之后很快得到了大家的认可接受，并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯，这又是怎么一回事呢。高斯在1809年也发表了最小二乘法，并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法，并在数据分析中使用最小二乘方法进行计算，准确地预测了谷神星的位置。

扯了半天最小二乘法，没看出和正态分布有任何关系啊，离题了吧？单就最小二乘法本身，虽然很实用，不过看上去更多的算是一个代数方法，虽然可以推导出最优解，对于解的误差有多大，无法给出有效的分析，而这个就是正态分布粉墨登场发挥作用的地方。勒让德提出的最小二乘法，确实是一把在数据分析领域披荆斩棘的好刀，但是刀刃还是不够锋利；而这把刀的打造后来至少一半功劳被归到高斯，是因为高斯不但独自地给出了造刀的方法，而且把最小二乘这把刀的刀刃造得无比锋利，把最小二乘打造为了一把瑞士军刀。

高斯拓展了最小二乘法，把正态分布和最小二乘法联系在一起，并使得正态分布在统计误差分析中确立了自己的定位，否则正态分布就不会被称为高斯分布了。那高斯这位神人是如何把正态分布引入到误差分析之中，打造最小二乘这把瑞士军刀的呢？

http://songshuhui.net/archives/76501

posted @ 2014-10-22 20:32 midu 阅读(917) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

科努雷（kernel）

kelu 业精于勤，荒于嬉；行成于思，毁于随！

数据分析之最小二乘法---最小二乘法，数据分析的瑞士军刀

公告