随机梯度下降求解非平滑优化:收敛结果和最优平均策略。
参考文献:Stochastic Gradient Descent for Non-smooth Optimization:
Convergence Results and Optimal Averaging Schemes
文章分析了:
- Individual SGD Iterates的收敛性。
-
对于强凸的情况,期望误差为:
对于一般凸的情况,期望误差为:
算法结束后,返回最后一次迭代的结果。
- Averaging Schemes的收敛性。
-
对于强凸的情况,期望误差为:
对于一般凸的情况,期望误差为:
算法结束后,返回多次迭代的平均结果(依据不同的算法,产生不同的平均策略)
定义:
如果对于所有的
其中,
Individual SGD Iterates的收敛性
理论1:
假定函数
理论2:
假定函数
考虑步长为
Averaging Schemes的收敛性
1、
即定义为最后
缺点不能on-the-fly,需要存储后
2、维持所有直到
能够on-the-fly,仅获得次优的边界:
3、
它具有两个优点:1、可以on-the-fly的计算,即实时的计算。2、它给出了一个最优的收敛速度。对于任意的
其中
当
理论4:
假定
即算法的更新策略为:
- 计算次梯度
g^t - 权重
w 更新迭代公式:
wt+1=Π(wt−ηtg^t)(1) 平均权重
w¯¯¯ 更新迭代公式:
w¯¯¯ηt=(1−η+1t+η)w¯¯¯ηt−1+η+1t+ηwt
为了统一,上面的公式变为:
w¯¯¯ηt+1=(1−η+1t+η)w¯¯¯ηt+η+1t+ηwt+1(2) 算法终止,返回
w¯¯¯t ,t 表示算法终止时,当前的迭代次数。注意,公式(1)中的
ηt 和公式(2)中的η 是完全不同的。
posted on 2016-07-07 20:32 Raby_Draby 阅读(824) 评论(0) 收藏 举报
浙公网安备 33010602011771号