优化器 - happygril3 - 博客园

优化器

首先定义：待优化参数：，目标函数：，初始学习率 $\alpha$ 。

而后，开始进行迭代优化。在每个epoch ：

计算目标函数关于当前参数的梯度： $g_t=\nabla f(w_t)$
根据历史梯度计算一阶动量和二阶动量： $m_t = \phi(g_1, g_2, \cdots, g_t); V_t = \psi(g_1, g_2, \cdots, g_t)$ ，
计算当前时刻的下降梯度： $\eta_t = \alpha \cdot m_t / \sqrt{V_t}$
根据下降梯度进行更新： $w_{t+1} = w_t - \eta_t$

SGD

SGD with Momentum $m_t = \beta_1 \cdot m_{t-1} + (1-\beta_1)\cdot g_t$

AdaGrad

AdaDelta / RMSProp

Adam $m_t = \beta_1 \cdot m_{t-1} + (1-\beta_1)\cdot g_t$ $V_t = \beta_2 * V_{t-1} + (1-\beta_2) g_t^2$

posted on 2019-09-26 13:57 happygril3 阅读(188) 评论(0) 收藏举报

刷新页面返回顶部

导航

公告