摘要: 大语言模型训练分为预训练、监督微调(SFT)、人类反馈强化学习(RLHF)三个阶段,RLHF用于对齐人类偏好,核心优化算法包含DPO、PPO、GRPO三类。DPO直接基于人类偏好数据微调,通过对比优选、劣选回答的生成概率优化,无需独立奖励模型。PPO为策略梯度类算法,通过截断更新幅度、引入GAE广义优势估计保证训练稳定性,需搭配奖励模型、价值模型计算损失。GRPO为DPO的组级扩展,通过同prompt下多响应的组内归一化优势计算优化,可缓解输出变长、奖励方差异常问题。 阅读全文
posted @ 2026-03-03 12:30 Big-Yellow-J 阅读(259) 评论(0) 推荐(0)
摘要: 梳理强化学习DPO、PPO、GRPO三类优化算法常见的两类训练崩溃问题。熵坍缩源于动作概率与优势值协方差结构性恒正,训练初期策略熵快速趋近于0,模型失去探索性,效果陷入瓶颈,可通过DAPO调整GRPO的epsilon高低边界、动态温度调度仅对top20%高熵token计算策略梯度两种方案缓解,对应GRPO可配置epsilon_low、epsilon_high、top_entropy_quantile参数实现。奖励坍缩由GRPO组内归一化抹平多奖励信号相对差异导致,训练信号分辨率大幅下降,可采用GDPO对各奖励分量独立标准化后加权求和的方案解决。 阅读全文
posted @ 2026-03-03 12:30 Big-Yellow-J 阅读(310) 评论(0) 推荐(0)
levels of contents