摘要:
DeepSeek-R1的训练流程包含四个阶段,分为两个强化学习(RL)阶段和两个监督微调(SFT)阶段。 https://github.com/deepseek-ai/DeepSeek-R1 第一阶段:Cold Start(冷启动,SFT阶段) 要解决的问题 初始不稳定性和可读性差:直接从基模型启动 阅读全文
posted @ 2025-02-10 08:45 蝈蝈俊 阅读(2941) 评论(0) 推荐(0)
|
|
摘要:
DeepSeek-R1的训练流程包含四个阶段,分为两个强化学习(RL)阶段和两个监督微调(SFT)阶段。 https://github.com/deepseek-ai/DeepSeek-R1 第一阶段:Cold Start(冷启动,SFT阶段) 要解决的问题 初始不稳定性和可读性差:直接从基模型启动 阅读全文
posted @ 2025-02-10 08:45 蝈蝈俊 阅读(2941) 评论(0) 推荐(0) |
|