随机梯度下降求解非平滑优化:收敛结果和最优平均策略。

参考文献:Stochastic Gradient Descent for Non-smooth Optimization:
Convergence Results and Optimal Averaging Schemes

文章分析了:

- Individual SGD Iterates的收敛性。
-
对于强凸的情况,期望误差为:

O(log(T)/T)

对于一般凸的情况,期望误差为:
O(log(T)/T)

算法结束后,返回最后一次迭代的结果。
- Averaging Schemes的收敛性。
-
对于强凸的情况,期望误差为:
O(1/T)

对于一般凸的情况,期望误差为:
O(1/T)

算法结束后,返回多次迭代的平均结果(依据不同的算法,产生不同的平均策略)
定义:
λstronglyconvex
如果对于所有的w,wW,以及函数Fw处的任意梯度,下面的不等式成立:
F(w)F(w)+<g,ww>+λ2||ww||2

其中,λ>0。那么,那么称函数Fλstronglyconvex。当λ=0时,一般的凸函数总是满足上面的不等式。

Individual SGD Iterates的收敛性

理论1
假定函数Fλstronglyconvex,并且对于所有的t,满足E[||g^t||2]G2。考虑步长为ηt=1/λt的SGD。那么对于任何T>1,满足下面的不等式:

E[F(wT)F(w)]17G2(1+log(T)λT

理论2
假定函数F是凸函数,并且对于某些常数:D,G,满足:
E[||g^t||2]G2forallt

supw,wW||w=w||D

考虑步长为ηt=c/t,其中c>0是一个常数。那么对于任何的T>1,总是满足下面的不等式:
E[F(wT)F(w)](D2c+cG2)2+log(T)T

Averaging Schemes的收敛性

1、αsuffixaveraging**
即定义为最后αT次迭代的平均:

w¯¯¯αw=1αTt=(1α)T+1Twt

缺点不能on-the-fly,需要存储后αT次的wt
2、维持所有直到t次的平均:
w¯¯¯t=(11t)w¯¯¯t1+1twt

能够on-the-fly,仅获得次优的边界:O(log(t)/t.
3、polynomialdecayaveraing-作者提出的。
它具有两个优点:1、可以on-the-fly的计算,即实时的计算。2、它给出了一个最优的收敛速度。对于任意的t>1,其迭代计算公式如下:
w¯¯¯ηt=(1η+1t+η)w¯¯¯ηt1+η+1t+ηwt

其中w¯¯¯η1=w1η0,通常η取一个比较小的数,例如η=3.
η=0时,其变成上述的2。
理论4
假定F是一个λstronglyconvex,并且E[||g^t||2]G2。考虑步长为ηt=1/λt和初始值为w1的SGD。同样的,我们令η1是一个整数。那么:
E[F(wηT)F(w)58(1+ηT)(η(η+1)+(η+0.5)3(1+log(T))T)G2λT

即算法的更新策略为:

  1. 计算次梯度g^t
  2. 权重w更新迭代公式:
    wt+1=Π(wtηtg^t)(1)
  3. 平均权重w¯¯¯更新迭代公式:

    w¯¯¯ηt=(1η+1t+η)w¯¯¯ηt1+η+1t+ηwt

    为了统一,上面的公式变为:
    w¯¯¯ηt+1=(1η+1t+η)w¯¯¯ηt+η+1t+ηwt+1(2)

  4. 算法终止,返回w¯¯¯tt表示算法终止时,当前的迭代次数。

    注意,公式(1)中的ηt和公式(2)中的η是完全不同的。

posted on 2016-07-07 20:32  Raby_Draby  阅读(824)  评论(0)    收藏  举报

导航