2025 年 2月 10 日随笔档案 - 蝈蝈俊

2025年2月10日

DeepSeek-R1的四个训练阶段

摘要： DeepSeek-R1的训练流程包含四个阶段，分为两个强化学习（RL）阶段和两个监督微调（SFT）阶段。 https://github.com/deepseek-ai/DeepSeek-R1 第一阶段：Cold Start（冷启动，SFT阶段）要解决的问题初始不稳定性和可读性差：直接从基模型启动阅读全文

posted @ 2025-02-10 08:45 蝈蝈俊阅读(3090) 评论(0) 推荐(0)

蝈蝈俊的技术心得

导航

公告

DeepSeek-R1的四个训练阶段