摘要: 基本优化算法: 一、SGD 1.含义: 随机抽取m个小批量样本,计算梯度平均值,再进行梯度的更新。 2.算法: 3.学习率衰减: ,α=k/τ 说明:初始以ε0的学习率进行线性衰减,直到τ次迭代,τ次迭代之后学习率稳定在ετ。 4.参考: https://blog.csdn.net/bvl10101 阅读全文
posted @ 2018-08-10 10:39 我若成风者 阅读(494) 评论(0) 推荐(0)