大模型基本术语.md

大模型基本术语

  1. 什么是大模型的epoch和学习率?
    1. 基础定义:
      epoch:模型遍历全体数据的的完整周期。
      学习率:参数更新的步长幅度,控制模型学习速度。
    2. 核心关系:
      1. 学习率过大 -> 震荡不收敛。
      2. 学习率过小 -> 收敛缓慢(原地踏步)
      3. epoch不足 -> 欠拟合
      4. epoch过多 -> 过拟合(泛化能力偏弱)
    3. 工程实践
      1. 学习预热率
      2. 动态衰减策略
      3. 早停机制
    4. 真实项目案例
      1. epoch 设计
        1. 基线设置:10epoch (常规nlp 任务常用值)。
        2. 实际表现:验证集Loss在第6 epoch开始波动上升。
        3. 最终方案:采用早停策略 实际预训练5 epoch即停止。
      2. 学习率策略
        1. 初始值: 3e-5
        2. 动态调整
        3. 异常处理:当梯度范数超过阈值自动缩减学习率。
    5. 5e-5 是平衡模型收敛速度和稳定性的经验值 相当于让大模型以小碎步的方式精细调整知识,即保留预训练获得通用能力,又能适配新任务需求。
    6. 关键发现: 学习率敏感度测试:当学习率>5e-5时生成稳步出现重复片段
    7. epoch边界效应: 第3epoch后生成内容开始出现虚构数据。
posted @ 2025-07-18 11:50  贺艳峰  阅读(31)  评论(0)    收藏  举报