会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
又有知识…增加了
个人笔记,数学和计算机相关知识
博客园
首页
新随笔
联系
订阅
管理
2025年10月14日
大模型预训练(七):保持训练稳定性
摘要: Hessian 矩阵是观察性的,而非指令性的。它不控制或调整优化过程,它告诉你损失函数是如何围绕当前权重形成的,但不会主动干预。 所以,假设 Hessian 矩阵显示“哦,这部分损失函数非常陡峭,或者曲率是负的”,会发生什么? 1. 标准梯度下降无法明确地识别它 梯度下降只使用一阶导数(梯度),它只
阅读全文
posted @ 2025-10-14 22:09 CathyBryant
阅读(7)
评论(0)
推荐(0)
公告