deepseek-r1-distill-qwen-32B 模型技术过程——做了SFT
DeepSeek-R1-Distill-Qwen-32B 是 DeepSeek 团队通过 “知识蒸馏”(Knowledge Distillation) 技术创造出来的。
简单来说,它的诞生过程并非像传统的“从零训练”或单纯的“继续预训练”,而是**“大号学霸(DeepSeek-R1)手把手教小号(Qwen-32B)做题”**的过程。
以下是其核心技术过程的详细拆解:
1. 角色分配
-
老师模型 (Teacher):DeepSeek-R1(671B参数)。这是DeepSeek最强的推理模型,通过大规模强化学习(RL)掌握了极强的思维链(Chain-of-Thought)能力。
-
学生模型 (Student):Qwen-2.5-32B(通义千问2.5的32B版本)。这是一个底子很好的开源基座模型,但尚未经过针对性的深度推理训练。
2. 核心过程:知识蒸馏 (Distillation)
DeepSeek 并没有对 Qwen-32B 进行大规模的强化学习(像训练 R1 那样从零开始“顿悟”),而是采用了直接微调的方式。具体步骤如下:
第一步:生成“教材” (Data Generation)
DeepSeek 让“老师模型” (DeepSeek-R1) 生成了大量的推理数据。[1][2][3][4][5]
-
内容:不仅仅是问题的答案,更重要的是包含完整的思考过程(Chain of Thought),即那个标志性的 <think> 标签里的内容。
-
规模:他们精选了约 80万条 高质量的样本。
-
筛选:使用拒绝采样(Rejection Sampling)等技术剔除错误的、逻辑混乱的回答,只保留最清晰、正确的推理路径作为训练数据。
第二步:监督微调 (Supervised Fine-Tuning, SFT)
使用这 80 万条包含“详细思考步骤”的数据,对 Qwen-2.5-32B 进行监督微调 (SFT)。
-
目的:让 Qwen-32B 模仿 DeepSeek-R1 的思考模式。
-
效果:Qwen-32B 不需要像 R1 那样通过无数次试错(强化学习)来自己“悟”出解题逻辑,而是直接“背诵”并内化了 R1 总结出来的最佳推理范式。
3. 为什么这么做?(技术原理)
DeepSeek 的论文(DeepSeek-R1 Paper)中发现了一个关键结论:
推理模式是可以被“蒸馏”的。
如果直接把大模型(R1)产生的优秀推理步骤喂给小模型(Qwen)吃,小模型的推理能力会瞬间大幅提升,甚至超过那些自己尝试用强化学习(RL)训练的小模型。
4. 总结:它和 DeepSeek-R1 原版有什么区别?
| 特性 | DeepSeek-R1 (原版) | DeepSeek-R1-Distill-Qwen-32B |
| 训练方式 | 大规模强化学习 (RL) + 冷启动数据 | 监督微调 (SFT) (直接学习R1的输出) |
| 基座模型 | DeepSeek-V3-Base | Qwen-2.5-32B |
| 优势 | 思维能力的天花板,能自我进化 | 性价比极高,在32B尺寸下拥有接近顶级模型的数学/代码推理能力 |
| 代价 | 极其昂贵的算力消耗 | 训练成本相对极低(站在巨人的肩膀上) |
一句话总结:
DeepSeek-R1-Distill-Qwen-32B 就是把 DeepSeek-R1 脑子里的“解题思路”提取出来,灌输给了 Qwen-2.5-32B,从而让这个较小的模型也获得了类似 R1 的深度思考能力。

浙公网安备 33010602011771号