摘要: SGD:随机梯度下降 每次随机一个样本 计算梯度 新参数 = 旧参数 - 学习率 * 梯度 改进——动量(解决局部最优问题): SGD-M:加入一阶动量来替代梯度,其中一阶动量公式:新动量 = (1-beta)*旧动量 + beta * 梯度,beta经验为0.1 SGD with Nesterov 阅读全文
posted @ 2025-05-17 22:56 Phile-matology 阅读(37) 评论(0) 推荐(0)