会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Phile-matology
博客园
首页
新随笔
联系
订阅
管理
2025年5月17日
补全llm知识体系的地基:优化器
摘要: SGD:随机梯度下降 每次随机一个样本 计算梯度 新参数 = 旧参数 - 学习率 * 梯度 改进——动量(解决局部最优问题): SGD-M:加入一阶动量来替代梯度,其中一阶动量公式:新动量 = (1-beta)*旧动量 + beta * 梯度,beta经验为0.1 SGD with Nesterov
阅读全文
posted @ 2025-05-17 22:56 Phile-matology
阅读(37)
评论(0)
推荐(0)
公告