DeepSeekMath -- GRPO
Deepseek系列博客目录
Model | 核心 | Date |
---|---|---|
DeepSeekLLM | 探究LLM Scalling Law | 2024.01 |
DeepSeekMath | 提出GRPO | 2024.04 |
DeepSeek-V2 | DeepSeekMoE, Multi-Head Latent Attention (MLA) | 2024.06 |
DeepSeek-V3 | 新版DeepSeekMoE, MTP, 混合精度训练 | 2024.12 |
DeepSeek-R1 | GRPO应用 | 2025.01 |