随机梯度下降

本文介绍了机器学习中基本的优化算法—梯度下降算法和随机梯度下降算法，以及实际应用到线性回归、Logistic回归、矩阵分解推荐算法等ML中。

梯度下降算法基本公式

arg min θ 1 m \sum i = 1 m | h θ ( x ( i ) ) - y

或者平方误差最小，即：

arg min θ 1 2 m \sum i = 1 m ( h θ ( x i ) - y ( i

其中

J (θ) = 1 2 m \sum i = 1 m ( h θ ( x ( i ) ) - y ( i ) )

J (θ) = 1 m \sum i = 1 m | h θ ( x ( i ) ) - y ( i )

为了求解

θ j := θ j - α \partial \partial θ j J ( θ )

以多变量线性回归为例：
拟合函数如下：

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n =

J (θ) = 1 2 m \sum i = 1 m ( h θ ( x ( i ) ) - y ( i ) )

θ j := θ j - α 1 m \sum i = 1 m ( h θ ( x ( i ) - y ( i ) ) )

代价函数：
以Sigmoid函数（Logistic函数）为例说明：

h θ (x) = 1 1 + e - θ T x

J (θ) = - 1 m \sum i = 1 m [ ( y ( i ) log h θ ( x (

J (θ) = - 1 m \sum i = 1 m log ( 1 - h θ ( x ( i ) ) )

J (θ) = - 1 m \sum i = 1 m log h θ ( x ( i ) )

y=1时，

迭代更新公式：
求导过程蛮复杂的，直接给出结果吧:

θ j := θ j - α 1 m \sum i = 1 m ( h θ ( x ( i ) - y ( i ) ) )

θ := θ j - α 1 m \sum i = 1 m ( [ h θ ( x ( i ) - y ( i ) ) )

stochastic gradient descent

从梯度上升算法公式可以看出，每次更新回归系数

θ j := θ j - α (h θ (x (i) - y (i))) x j (i)

posted on 2017-12-25 11:41 alexanderkun 阅读(963) 评论(0) 收藏举报

刷新页面返回顶部