[PaperReading] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

link
时间:25.01
单位:DeepSeek
被引次数:2130
主页:https://github.com/deepseek-ai/DeepSeek-R1

TL;DR

DeepSeek团队开源了DeepSeek-R1-Zero和DeepSeek-R1两个大模型,通过大规模强化学习(RL)训练,​​无需监督微调(SFT)​​作为前置步骤,模型就能学习出强大的推理能力。在数学、代码等推理任务上效果接近OpenAI-o1-1217(OpenAI 2024年12月发布)。同时开源了基于Qwen和Llama的6个蒸馏模型(1.5B-70B)。

Method

GhyQsM6WQAE7W52

图片参考自 twitter

说明:

  • 蓝色为模型、红色为数据、黄色为策略;
  • DeepSeekV3 + RL不经过SFT可直接Train出R1-Zero效果接近R1,但poor readability and language mixing;
  • 将R1-Zero数据经人工清洗得到Long CoT数据,用来启动第二阶段SFT训练;
  • language consistency reward: 将目标语言占比作为CoT阶段的Reward Function;
Rejection Sampling是什么?

多候选生成​​:对每个提示(prompt)采样多个响应(通常4-64个)
质量筛选 ​​:

  • 保留格式正确的响应(包含完整的标签)
  • 剔除语言混合、冗长或含代码块混乱的响应

​​正确性验证​​:

  • 数学问题:验证最终答案格式(如\boxed{}内结果)
  • 代码问题:通过编译器/测试用例验证

​​奖励模型辅助​​:使用DeepSeek-V3判断生成质量

Experiment

直接对Qween 32B使用R1-Zero的强化学习后训练推理能力没有提升,但使用训练R1的Reasoning数据训练Qween 32B推理能力明显提升。
image

总结与思考

相关链接

一个更详细的Deepseek-R1训练流程图
先有DeepSeek-V3还是先有DeepSeek-R1

posted @ 2025-07-15 20:28  fariver  阅读(44)  评论(0)    收藏  举报