DeepSeekMath -- GRPO

Deepseek系列博客目录

Model	核心	Date
DeepSeekLLM	探究LLM Scalling Law	2024.01
DeepSeekMath	提出GRPO	2024.04
DeepSeek-V2	DeepSeekMoE, Multi-Head Latent Attention (MLA)	2024.06
DeepSeek-V3	新版DeepSeekMoE, MTP, 混合精度训练	2024.12
DeepSeek-R1	GRPO应用	2025.01

posted @ 2025-03-14 18:54 AAA建材王师傅阅读(41) 评论(0) 收藏举报

刷新页面返回顶部