随机梯度下降求解非平滑优化：收敛结果和最优平均策略。

参考文献：Stochastic Gradient Descent for Non-smooth Optimization:
Convergence Results and Optimal Averaging Schemes

文章分析了：

- Individual SGD Iterates的收敛性。
-
对于强凸的情况，期望误差为：

O (l o g (T) / T)

对于一般凸的情况，期望误差为：

O (l o g (T) / T - - \sqrt)

算法结束后，返回最后一次迭代的结果。
- Averaging Schemes的收敛性。
-
对于强凸的情况，期望误差为：

O (1 / T)

对于一般凸的情况，期望误差为：

O (1 / T - - \sqrt)

算法结束后，返回多次迭代的平均结果（依据不同的算法，产生不同的平均策略）
定义：
λ−stronglyconvex ：
如果对于所有的

w′∈W,以及函数

F在

w处的任意梯度，下面的不等式成立：

F (w') \geq F (w) + < g, w' - w > + λ 2 | | w' - w | | 2

其中，

λ>0。那么，那么称函数

F是

λ−stronglyconvex。当

λ=0时，一般的凸函数总是满足上面的不等式。

Individual SGD Iterates的收敛性

理论1：
假定函数F是λ−stronglyconvex，并且对于所有的t,满足E[||g^t||2]≤G2。考虑步长为ηt=1/λt的SGD。那么对于任何T>1，满足下面的不等式：

E [F (w T) - F (w *)] \leq 17 G 2 ( 1 + l o g ( T ) λ T

理论2：
假定函数

F是凸函数，并且对于某些常数:

D,G,满足：

E [| | g^t | | 2] \leq G 2 f o r a l l t

sup w, w' \in W | | w = w' | | \leq D

考虑步长为

ηt=c/t√，其中

c>0是一个常数。那么对于任何的

T>1，总是满足下面的不等式：

E [F (w T) - F (w *)] \leq (D 2 c + c G 2) 2 + l o g ( T ) T - - \sqrt

Averaging Schemes的收敛性

1、α−suffixaveraging**
即定义为最后αT次迭代的平均：

w ¯ ¯ ¯ α w = 1 α T \sum t = (1 - α) T + 1 T w t

缺点不能on-the-fly，需要存储后

αT次的

wt
2、维持所有直到t次的平均：

w ¯ ¯ ¯ t = (1 - 1 t) w ¯ ¯ ¯ t - 1 + 1 t w t

能够on-the-fly，仅获得次优的边界：

O(log(t)/t.
3、polynomial−decayaveraing-作者提出的。
它具有两个优点：1、可以on-the-fly的计算，即实时的计算。2、它给出了一个最优的收敛速度。对于任意的

t>1，其迭代计算公式如下：

w ¯ ¯ ¯ η t = (1 - η + 1 t + η) w ¯ ¯ ¯ η t - 1 + η + 1 t + η w t

其中

w¯¯¯η1=w1，

η≥0，通常

η取一个比较小的数，例如

η=3.
当

η=0时，其变成上述的2。
理论4：
假定

F是一个

λ−stronglyconvex，并且

E[||g^t||2]≤G2。考虑步长为

ηt=1/λt和初始值为

w1的SGD。同样的，我们令

η≥1是一个整数。那么:

E [F (w η T) - F (w *) \leq 58 (1 + η T) (η (η + 1) + ( η + 0.5 ) 3 ( 1 + l o g ( T ) ) T) G 2 λ T

即算法的更新策略为:

计算次梯度g^t
权重w更新迭代公式：
$w t + 1 = Π (w t - η t g^t) (1)$
平均权重w¯¯¯更新迭代公式：

$w ¯ ¯ ¯ η t = (1 - η + 1 t + η) w ¯ ¯ ¯ η t - 1 + η + 1 t + η w t$
为了统一，上面的公式变为：
$w ¯ ¯ ¯ η t + 1 = (1 - η + 1 t + η) w ¯ ¯ ¯ η t + η + 1 t + η w t + 1 (2)$
算法终止，返回w¯¯¯t，t表示算法终止时，当前的迭代次数。

注意，公式（1）中的ηt和公式（2）中的η是完全不同的。

posted on 2016-07-07 20:32 Raby_Draby 阅读(824) 评论(0) 收藏举报

刷新页面返回顶部