语言模型资料

token生成

强化学习

以下是 基于kimi的一些问答, 注意部分公式符号和论文是对不上的。


在论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》中,surrogate一词主要出现在对强化学习(Reinforcement Learning, RL)算法的讨论中,特别是与Proximal Policy Optimization(PPO)相关的内容。

在论文中的具体含义

在PPO算法中,surrogate objective(替代目标函数)是一个用于优化策略模型的关键函数。它通过最大化这个替代目标来更新策略模型,从而提高模型在特定任务上的表现。具体来说,PPO算法的替代目标函数定义为:

\[J_{\theta}(\theta') = \mathbb{E}_{i \sim \pi_{\theta}(A), o \sim \pi_{\theta'}(A|i)} \left[ \frac{1}{|o|} \sum_{j=1}^{|o|} \min \left( \frac{\pi_{\theta'}(o_j|i, o_{<j})}{\pi_{\theta}(o_j|i, o_{<j})} A_j, \text{clip} \left( \frac{\pi_{\theta'}(o_j|i, o_{<j})}{\pi_{\theta}(o_j|i, o_{<j})}, 1 - \epsilon, 1 + \epsilon \right) A_j \right) \right] \]

其中:

  • $ \pi_{\theta} $ 和 $ \pi_{\theta'} $ 分别是旧策略和新策略。
  • $ A_j $ 是优势函数(advantage),用于衡量某个动作相对于平均情况的好坏。
  • $ \epsilon $ 是一个超参数,用于控制更新的幅度。

作用

替代目标函数的作用是通过优化策略模型,使其在给定的任务上获得更高的奖励。它通过以下方式实现:

  1. 减少更新的方差:通过引入优势函数 $ A_j $,替代目标函数能够更有效地衡量动作的好坏,从而减少更新过程中的方差。
  2. 控制更新的幅度:通过clip操作,PPO算法限制了策略更新的幅度,避免了过大的更新导致策略不稳定。
  3. 提高训练的稳定性:替代目标函数的设计使得PPO算法在训练过程中更加稳定,能够更好地适应复杂的任务环境。

在论文中的应用

在论文中,作者提出了Group Relative Policy Optimization(GRPO),这是一种改进的PPO算法。GRPO通过放弃传统的critic模型,改用基于组分数的基线来估计优势函数,从而显著减少了训练资源的消耗。这种改进使得GRPO在数学推理任务中表现出色,尤其是在DeepSeekMath模型的强化学习阶段,GRPO显著提升了模型在多个数学基准测试中的表现。


在论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》中,作者提出了Group Relative Policy Optimization (GRPO),这是一种改进的强化学习算法,用于优化语言模型的数学推理能力。GRPO的一个关键创新点是放弃了传统的价值函数模型(value model),转而通过组分数(group scores)来估计基线(baseline),从而显著减少了训练资源的消耗。

传统PPO中的价值函数模型

在传统的Proximal Policy Optimization (PPO)算法中,通常需要训练一个价值函数模型(value model)来估计每个状态的值函数(value function)。这个价值函数用于计算优势函数(advantage function),即某个动作相对于平均情况的优劣。具体来说,优势函数 $ A(s, a) $ 通常定义为:

\[A(s, a) = Q(s, a) - V(s) \]

其中:

  • $ Q(s, a) $ 是状态-动作值函数,表示在状态 $ s $ 下采取动作 $ a $ 的期望回报。
  • $ V(s) $ 是状态值函数,表示在状态 $ s $ 下的期望回报。

价值函数模型通常是一个与策略模型(policy model)规模相近的神经网络,这使得训练过程需要额外的计算资源和内存。

GRPO的创新:基于组分数的基线估计

GRPO的核心思想是放弃单独训练的价值函数模型,转而通过组分数来估计基线。具体来说,GRPO的工作机制如下:

  1. 采样组输出:对于每个问题 $ q $,从旧策略 $ \pi_{\theta_{\text{old}}} $ 中采样一组输出 $ {o_1, o_2, \dots, o_K} $。
  2. 计算组分数:使用奖励模型(reward model)为每个输出 $ o_i $ 计算奖励分数 $r_i $。
  3. 估计基线:通过组分数的平均值来估计基线。具体来说,基线 $ \hat{V}(q) $ 可以表示为:

    \[\hat{V}(q) = \frac{1}{K} \sum_{i=1}^{K} r_i \]

  4. 计算相对优势:对于每个输出 $ o_i $,计算其相对优势 $ \hat{A}(q, o_i) $ 为:

    \[\hat{A}(q, o_i) = r_i - \hat{V}(q) \]

  5. 优化策略模型:使用相对优势来更新策略模型,目标函数为:

    \[J_{\theta}(\theta') = \mathbb{E}_{q \sim \mathcal{D}, \{o_i\}_{i=1}^{K} \sim \pi_{\theta_{\text{old}}}(A|q)} \left[ \frac{1}{K} \sum_{i=1}^{K} \min \left( \frac{\pi_{\theta'}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)} \hat{A}(q, o_i), \text{clip} \left( \frac{\pi_{\theta'}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}, 1 - \epsilon, 1 + \epsilon \right) \hat{A}(q, o_i) \right) \right] \]

优势与资源节省

通过使用组分数估计基线,GRPO避免了训练额外的价值函数模型,从而显著减少了训练资源的消耗。具体优势包括:

  1. 减少内存需求:不需要额外存储价值函数模型的参数。
  2. 减少计算资源:避免了训练和更新价值函数模型的计算开销。
  3. 简化训练流程:减少了模型训练过程中的复杂性,使得整个强化学习过程更加高效。

实验结果

论文中的实验结果表明,GRPO在数学推理任务中表现出色。例如,GRPO在GSM8K和MATH基准测试中显著提升了DeepSeekMath模型的性能,分别达到了88.2%和51.7%的准确率。这些结果表明,GRPO不仅在资源消耗上具有优势,而且在性能提升方面也非常有效。

posted @ 2025-02-05 15:37  bregman  阅读(76)  评论(0)    收藏  举报