[PaperReading] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
TL;DR
Method
Experiment
总结与思考
相关链接

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

link
时间：25.01
单位：DeepSeek
被引次数：2130
主页：https://github.com/deepseek-ai/DeepSeek-R1

TL;DR

DeepSeek团队开源了DeepSeek-R1-Zero和DeepSeek-R1两个大模型，通过大规模强化学习(RL)训练，无需监督微调(SFT)作为前置步骤，模型就能学习出强大的推理能力。在数学、代码等推理任务上效果接近OpenAI-o1-1217(OpenAI 2024年12月发布)。同时开源了基于Qwen和Llama的6个蒸馏模型(1.5B-70B)。

Method

图片参考自 twitter

说明：

蓝色为模型、红色为数据、黄色为策略；
DeepSeekV3 + RL不经过SFT可直接Train出R1-Zero效果接近R1，但poor readability and language mixing；
将R1-Zero数据经人工清洗得到Long CoT数据，用来启动第二阶段SFT训练；
language consistency reward：将目标语言占比作为CoT阶段的Reward Function;

Rejection Sampling是什么？

多候选生成：对每个提示(prompt)采样多个响应(通常4-64个)
质量筛选 ：

保留格式正确的响应(包含完整的和标签)
剔除语言混合、冗长或含代码块混乱的响应

正确性验证：

数学问题：验证最终答案格式(如\boxed{}内结果)
代码问题：通过编译器/测试用例验证

奖励模型辅助：使用DeepSeek-V3判断生成质量

Experiment

直接对Qween 32B使用R1-Zero的强化学习后训练推理能力没有提升，但使用训练R1的Reasoning数据训练Qween 32B推理能力明显提升。

总结与思考

无

fariver