GRPO 是指群组相对策略优化(Group Relative Policy Optimization),是一种基于强化学习的策略优化算法,旨在提升大语言模型在复杂任务中的表现。以下是具体介绍:

在深度学习领域,没有 “GPRO” 相关的常见概念,你想问的可能是 “GRPO”。GRPO 是指群组相对策略优化(Group Relative Policy Optimization),是一种基于强化学习的策略优化算法,旨在提升大语言模型在复杂任务中的表现。以下是具体介绍:

  • 提出背景:传统的近端策略优化(PPO)算法在大语言模型训练中存在计算效率低、训练稳定性差和资源消耗大等问题。而 GRPO 最初在 DeepSeekMath 中提出,用于提升模型在开放域数学问题上的推理能力,后扩展至 DeepSeek-R1 等通用推理模型。
  • 核心思想:通过组内样本的相对比较替代传统强化学习中的绝对价值估计,从而简化训练流程、提升计算效率并保持策略优化的稳定性。具体而言,对同一输入提示,并行生成多个响应,形成组内样本;然后通过组内样本奖励值的归一化比较计算每个响应的相对优势,替代传统 PPO 中依赖价值网络估计的绝对优势。
  • 关键特点:
    • 去价值网络设计:GRPO 直接利用组内奖励的统计特性计算相对优势,省去了 PPO 中额外训练的价值网络,降低了显存占用。
    • 稳定优化机制:通过 KL 散度惩罚约束策略模型与参考模型的输出分布差异,防止过度偏离初始策略;同时对策略更新的幅度进行裁剪,并对组内奖励标准化处理,减少极端值影响,使梯度更新更平滑。
  • 与 PPO 对比优势:相比 PPO,GRPO 通常能减少显存占用,提升训练效率,在一些场景下还能降低训练崩溃率,更适用于超大规模模型以及多步推理任务。例如在 AIME 2024 测试中,使用 GRPO 训练的模型将 pass@1 得分从 15.6% 提升至 71.0%,且达到相同奖励水平所需的步数比 PPO 减少 35%。
posted @ 2025-07-23 16:20  m516606428  阅读(170)  评论(0)    收藏  举报