大模型基本术语
- 什么是大模型的epoch和学习率?
- 基础定义:
epoch:模型遍历全体数据的的完整周期。
学习率:参数更新的步长幅度,控制模型学习速度。
- 核心关系:
- 学习率过大 -> 震荡不收敛。
- 学习率过小 -> 收敛缓慢(原地踏步)
- epoch不足 -> 欠拟合
- epoch过多 -> 过拟合(泛化能力偏弱)
- 工程实践
- 学习预热率
- 动态衰减策略
- 早停机制
- 真实项目案例
- epoch 设计
- 基线设置:10epoch (常规nlp 任务常用值)。
- 实际表现:验证集Loss在第6 epoch开始波动上升。
- 最终方案:采用早停策略 实际预训练5 epoch即停止。
- 学习率策略
- 初始值: 3e-5
- 动态调整
- 异常处理:当梯度范数超过阈值自动缩减学习率。
- 5e-5 是平衡模型收敛速度和稳定性的经验值 相当于让大模型以小碎步的方式精细调整知识,即保留预训练获得通用能力,又能适配新任务需求。
- 关键发现: 学习率敏感度测试:当学习率>5e-5时生成稳步出现重复片段
- epoch边界效应: 第3epoch后生成内容开始出现虚构数据。
posted @
2025-07-18 11:50
贺艳峰
阅读(
31)
评论()
收藏
举报