梯度下降

1 应用场景

1.1 

现有m条记录,每个记录有n个维度,我们将其记作n×m矩阵(这里略反常。若记作m×n也一样,后面公式稍作变动即可);每条记录对应一个输出,所有输出形成一个1×m矩阵。
我们需要找到一个预测函数(就是一个向量)

希望对于任一条记录

可以用该预测函数计算出尽可能准确的预测值,即

在接下来的表述中,m条记录的下标用i表示,即i∈{1,2,…,m};n个维度的下标用j表示,即j∈{1,2,…,n}。

1.2

为了衡量预测函数的误差,定义如下误差函数:

我们的目标是

2 梯度下降法

2.1

为了求得预测函数(即向量θ),可以通过以下步骤:
(a)为θ赋初始值;
(b)以某种方式改变θ,使减小;
(c)重复上一步骤,直到小于某阈值或不再减小为止。

2.2

"梯度下降"的含义,就是让沿着负梯度方向运动,以求尽快的减少。

具体的求偏导数步骤如下:

这里表示的是第i条记录在第j个维度的值;而则表示预测函数给第j个维度赋予的权重。

posted @ 2013-02-27 20:36  Sunshine1991  阅读(193)  评论(0)    收藏  举报