[PaperReading] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
目录
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
link
时间:25.01
单位:DeepSeek
被引次数:2130
主页:https://github.com/deepseek-ai/DeepSeek-R1
TL;DR
DeepSeek团队开源了DeepSeek-R1-Zero和DeepSeek-R1两个大模型,通过大规模强化学习(RL)训练,无需监督微调(SFT)作为前置步骤,模型就能学习出强大的推理能力。在数学、代码等推理任务上效果接近OpenAI-o1-1217(OpenAI 2024年12月发布)。同时开源了基于Qwen和Llama的6个蒸馏模型(1.5B-70B)。
Method

图片参考自 twitter
说明:
- 蓝色为模型、红色为数据、黄色为策略;
- DeepSeekV3 + RL不经过SFT可直接Train出R1-Zero效果接近R1,但poor readability and language mixing;
- 将R1-Zero数据经人工清洗得到Long CoT数据,用来启动第二阶段SFT训练;
- language consistency reward: 将目标语言占比作为CoT阶段的Reward Function;
Rejection Sampling是什么?
多候选生成:对每个提示(prompt)采样多个响应(通常4-64个)
质量筛选 :
- 保留格式正确的响应(包含完整的
和 标签) - 剔除语言混合、冗长或含代码块混乱的响应
正确性验证:
- 数学问题:验证最终答案格式(如\boxed{}内结果)
- 代码问题:通过编译器/测试用例验证
奖励模型辅助:使用DeepSeek-V3判断生成质量
Experiment
直接对Qween 32B使用R1-Zero的强化学习后训练推理能力没有提升,但使用训练R1的Reasoning数据训练Qween 32B推理能力明显提升。

总结与思考
无
相关链接
本文来自博客园,作者:fariver,转载请注明原文链接:https://www.cnblogs.com/fariver/p/18979612

浙公网安备 33010602011771号