语言模型资料
token生成
-
代码 transformers.generation.GenerationMixin.generate
-
文档资料
-
顺便了解了 Johnson-Lindenstrauss引理 https://kexue.fm/archives/8679
强化学习
以下是 基于kimi的一些问答, 注意部分公式符号和论文是对不上的。
在论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》中,surrogate一词主要出现在对强化学习(Reinforcement Learning, RL)算法的讨论中,特别是与Proximal Policy Optimization(PPO)相关的内容。
在论文中的具体含义
在PPO算法中,surrogate objective(替代目标函数)是一个用于优化策略模型的关键函数。它通过最大化这个替代目标来更新策略模型,从而提高模型在特定任务上的表现。具体来说,PPO算法的替代目标函数定义为:
其中:
- $ \pi_{\theta} $ 和 $ \pi_{\theta'} $ 分别是旧策略和新策略。
- $ A_j $ 是优势函数(advantage),用于衡量某个动作相对于平均情况的好坏。
- $ \epsilon $ 是一个超参数,用于控制更新的幅度。
作用
替代目标函数的作用是通过优化策略模型,使其在给定的任务上获得更高的奖励。它通过以下方式实现:
- 减少更新的方差:通过引入优势函数 $ A_j $,替代目标函数能够更有效地衡量动作的好坏,从而减少更新过程中的方差。
- 控制更新的幅度:通过clip操作,PPO算法限制了策略更新的幅度,避免了过大的更新导致策略不稳定。
- 提高训练的稳定性:替代目标函数的设计使得PPO算法在训练过程中更加稳定,能够更好地适应复杂的任务环境。
在论文中的应用
在论文中,作者提出了Group Relative Policy Optimization(GRPO),这是一种改进的PPO算法。GRPO通过放弃传统的critic模型,改用基于组分数的基线来估计优势函数,从而显著减少了训练资源的消耗。这种改进使得GRPO在数学推理任务中表现出色,尤其是在DeepSeekMath模型的强化学习阶段,GRPO显著提升了模型在多个数学基准测试中的表现。
在论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》中,作者提出了Group Relative Policy Optimization (GRPO),这是一种改进的强化学习算法,用于优化语言模型的数学推理能力。GRPO的一个关键创新点是放弃了传统的价值函数模型(value model),转而通过组分数(group scores)来估计基线(baseline),从而显著减少了训练资源的消耗。
传统PPO中的价值函数模型
在传统的Proximal Policy Optimization (PPO)算法中,通常需要训练一个价值函数模型(value model)来估计每个状态的值函数(value function)。这个价值函数用于计算优势函数(advantage function),即某个动作相对于平均情况的优劣。具体来说,优势函数 $ A(s, a) $ 通常定义为:
其中:
- $ Q(s, a) $ 是状态-动作值函数,表示在状态 $ s $ 下采取动作 $ a $ 的期望回报。
- $ V(s) $ 是状态值函数,表示在状态 $ s $ 下的期望回报。
价值函数模型通常是一个与策略模型(policy model)规模相近的神经网络,这使得训练过程需要额外的计算资源和内存。
GRPO的创新:基于组分数的基线估计
GRPO的核心思想是放弃单独训练的价值函数模型,转而通过组分数来估计基线。具体来说,GRPO的工作机制如下:
- 采样组输出:对于每个问题 $ q $,从旧策略 $ \pi_{\theta_{\text{old}}} $ 中采样一组输出 $ {o_1, o_2, \dots, o_K} $。
- 计算组分数:使用奖励模型(reward model)为每个输出 $ o_i $ 计算奖励分数 $r_i $。
- 估计基线:通过组分数的平均值来估计基线。具体来说,基线 $ \hat{V}(q) $ 可以表示为:\[\hat{V}(q) = \frac{1}{K} \sum_{i=1}^{K} r_i \]
- 计算相对优势:对于每个输出 $ o_i $,计算其相对优势 $ \hat{A}(q, o_i) $ 为:\[\hat{A}(q, o_i) = r_i - \hat{V}(q) \]
- 优化策略模型:使用相对优势来更新策略模型,目标函数为:\[J_{\theta}(\theta') = \mathbb{E}_{q \sim \mathcal{D}, \{o_i\}_{i=1}^{K} \sim \pi_{\theta_{\text{old}}}(A|q)} \left[ \frac{1}{K} \sum_{i=1}^{K} \min \left( \frac{\pi_{\theta'}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)} \hat{A}(q, o_i), \text{clip} \left( \frac{\pi_{\theta'}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}, 1 - \epsilon, 1 + \epsilon \right) \hat{A}(q, o_i) \right) \right] \]
优势与资源节省
通过使用组分数估计基线,GRPO避免了训练额外的价值函数模型,从而显著减少了训练资源的消耗。具体优势包括:
- 减少内存需求:不需要额外存储价值函数模型的参数。
- 减少计算资源:避免了训练和更新价值函数模型的计算开销。
- 简化训练流程:减少了模型训练过程中的复杂性,使得整个强化学习过程更加高效。
实验结果
论文中的实验结果表明,GRPO在数学推理任务中表现出色。例如,GRPO在GSM8K和MATH基准测试中显著提升了DeepSeekMath模型的性能,分别达到了88.2%和51.7%的准确率。这些结果表明,GRPO不仅在资源消耗上具有优势,而且在性能提升方面也非常有效。
--- 她说, 她是仙,她不是神

浙公网安备 33010602011771号