[斯坦福大学2014机器学习教程笔记]第二章-梯度下降

之前我们已经讲了代价函数了，这节我们讲代价函数J最小化的梯度下降法。

梯度下降是很常用的算法。它不仅被用在线性回归上，还被广泛应用于机器学习的众多领域。

下面是问题概述。我们有一个函数J(θ₀,θ₁)，这也许是个线性回归的代价函数，也许是个需要最小化的其他函数。我们需要用一个算法，来最小化函数J(θ₀,θ₁)。

实际上，梯度下降算法可以应用于更一般的函数，如J(θ₀,θ₁,θ₂,......θ_n)，你希望可以在θ₀到θ_n之上最小化此函数。但是为了简化，我们这里只用θ₀,θ₁两个参数。

梯度下降算法的基本思想是：首先给定θ₀和θ₁初始值（其实给定多少都不重要），但通常都设θ₀=0，θ₁=0。然后，我们不停地一点点地改变θ₀和θ₁，来使J(θ₀,θ₁)变小。直到我们找到J的最小值或者局部最小值。

下面我们通过图片来直观地看一下它是怎么工作的。

首先我们先从θ₀和θ₁的某个值出发。想象一下你正站立在山的这一点上，站立在你想象的公园这座红色山上，在梯度下降算法中，我们要做的就是旋转360度，看看我们的周围，并问自己要在某个方向上，用小碎步尽快下山。这些小碎步需要朝什么方向？如果我们站在山坡上的这一点，你看一下周围，你会发现最佳的下山方向，你再看看周围，然后再一次想想，我应该从什么方向迈着小碎步下山？然后你按照自己的判断又迈出一步，重复上面的步骤，从这个新的点，你环顾四周，并决定从什么方向将会最快下山，然后又迈进了一小步，并依此类推，直到你接近局部最低点的位置。我们在刚刚出发点右边再出发一次，这时我们得到另外一个局部最低点的位置。