[斯坦福大学2014机器学习教程笔记]第二章-梯度下降线性回归

上一节中，我们讲了梯度下降算法，这一节我们将要将梯度下降和代价函数结合得到线性回归算法。它可以用直线模型来拟合数据。

首先我们来回顾一下之前的知识点。左侧为梯度下降法，右侧为线性回归模型（包括线性假设和平方差代价函数）。

我们要做的就是将梯度下降法应用到最小化平方差代价函数。为了应用梯度下降法，我们要弄清楚公式中的导数项。

当我们计算完后，我们将它们代回到我们的梯度下降算法中。我们就会得到如下所示的式子。

这就是我们的线性回归算法。注意：在实现算法的时候，我们要同时更新θ₀和θ₁。

接下来，我们看一下梯度下降是如何实现的。在我们之前的例子中，出现过它容易陷入局部最优的问题。如下图，我们的起始位置不同会导致我们得到两个不同的局部最优解。

但是，线性回归的代价函数总是一个如下所示的弓状函数。

这个函数的特点就是只有一个全局最优。当你计算这种代价函数的梯度下降，只要你使用的是线性回归，它总是会收敛到全局最优。因为它并没有其他的局部最优解。

现在我们看一下这个算法的使用。这里有假设函数的曲线和代价函数J的曲线。

我们在这个值的参数初始化，如何我们会得到一条线。

如果我们梯度下降一步，我们会从这个点往左下方移动一点点。之后我们会得到另外一条新的直线。我们每下降一步，就会得到代价更小的新的直线。随着我们不断下降，直线看起来也越来越好。最后，我们到了全局的最小值。

显然，此时的直线很好地拟合了数据。这就是梯度下降。

我们刚刚学习的算法有时候也被称作Batch梯度下降（批量梯度下降法）。它意味着在梯度下降的每一步中，我们都用到了所有的训练样本，在梯度下降中，在计算微分求导项时，我们需要进行求和运算，所以，在每一个单独的梯度下降中，我们最终都要计算这样一个东西，这个项需要对所有个训练样本求和。因此，批量梯度下降法这个名字说明了我们需要考虑所有这一"批"训练样本，而事实上，有时也有其他类型的梯度下降法，不是这种"批量"型的，不考虑整个的训练集，而是每次只关注训练集中的一些小的子集。在后面的课程中，我们也将介绍这些方法。

将批量梯度算法应用到线性回归中，这就是用于线性回归的梯度下降法。

如果你之前学过线性代数，你应该知道有一种计算代价函数最小值的数值解法，不需要梯度下降这种迭代算法。在后面的课程中，我们也会谈到这个方法，它可以在不需要多步梯度下降的情况下，也能解出代价函数的最小值，这是另一种称为正规方程(normal equations)的方法。实际上在数据量较大的情况下，梯度下降法比正规方程要更适用一些。

现在我们已经掌握了梯度下降，我们可以在不同的环境中使用梯度下降法，我们还将在不同的机器学习问题中大量地使用它。所以，祝贺大家成功学会你的第一个机器学习算法。

posted @ 2020-03-30 12:52 不爱学习的Shirley 阅读(295) 评论(0) 收藏举报

刷新页面返回顶部

不爱学习的Shirley

[斯坦福大学2014机器学习教程笔记]第二章-梯度下降线性回归

公告