deepseek-r1-grpo

1. DeepSeek-r1-zero（推理能力提升）

采用基于规则的奖励系统，主要包括两类奖励：

准确率奖励：准确率奖励模型评估响应是否正确。
- 例如，在具有确定性结果的数学问题中，要求模型以指定格式（如方框内）提供最终答案，从而实现基于规则的可信正确性验证。
- 类似地，对于 LeetCode 问题，可使用编译器基于预定义测试用例生成反馈。
格式奖励：除了准确率奖励模型外，我们还使用了一个格式奖励模型，以强制模型将其思考过程放在 <think> 和 </think> 标签之间。
在开发 DeepSeek-R1-Zero 时，我们并未采用结果或过程神经奖励模型，因为发现神经奖励模型在大规模强化学习过程中可能遭遇奖励破解问题，且重新训练奖励模型需要额外训练资源，这会使整个训练流水线复杂化。（在后来的工作里面，其实大量使用到了神经奖励/过程奖励的方法来构造奖励函数）

deepseek-r1-zero出现了：

受 DeepSeek-R1-Zero 优异表现的启发，我们自然产生两个疑问

数据：
- 来源：
  1. few-shot prompt
  2. zero-shot prompt
  3. DeepSeek-R1-Zero可读格式的输出结果
  4. 人工标注员后期处理
- 大小：几千条
base模型：
- deepseek-V3-Base（注意使用的是Base模型，而不是instruct模型）
冷启动的优势
1. 可读性：DeepSeek-R1-Zero 的一个关键局限在于其内容往往不适合阅读。响应可能混合多种语言，或缺少用于向用户突出答案的 Markdown 格式。相比之下，在为 DeepSeek-对读者不友好的响应。在此，我们将输出格式定义为 |special_token|< 推理过程 >|special_token|< 总结 >，其中推理过程是针对查询的思维链，总结则用于概括推理结果。
2. 潜力：通过精心设计融合人类先验的冷启动数据模式，我们观察到相较于 DeepSeek-R1- Zero 模型实现了更优的性能。我们坚信迭代训练是提升推理模型能力的更有效途径。
思考：这篇文章中，对于冷启动的作用，概括为两点：1. 学习基本约束条件。（体现为单一语言+输出格式） 2. 提高RL的性能

奖励函数：训练过程中，我们观察到思维链常出现语言混合现象，尤其是在强化学习提示涉及多语言场景时。为缓解语言混合问题，我们引入了语言一致性奖励机制，该奖励通过计算思维链中目标语言词汇占比来实现。最终，我们通过直接相加的方式将推理任务准确率与语言一致性奖励相结合，构成最终奖励信号。

思考：如何设计奖励？从这篇文章中可以看到，奖励函数的设计有两种要素决定：1. 最终目标（文中体现为推理任务准确率奖励） 2. 次要目标，或者对badcase的修复（文中体现为语言一致性奖励）

目标：提升有用性和无害性，同时精进推理能力
推理数据：
- 和R1一样，使用正确性奖励+格式奖励
通用数据（使用Reward Model）：
- 对于有用性评估，我们聚焦最终回答的总结部分，确保评估重点落在回应用户需求的实用性与相关性上，同时最大限度减少对潜在推理过程的干扰。
- 在无害性评估中，我们全面审视模型的完整输出（包括推理过程与总结），以识别并消除生成过程中可能出现的潜在风险、偏见或有害内容。

posted @ 2025-12-13 17:39 Brain404 阅读(5) 评论(0) 收藏举报

刷新页面返回顶部