02 2025 档案

GRPO详解

摘要：

GRPO详解 GRPO算法是在PPO算法的基础上进化而来的，在搞清楚GRPO算法前，需要先了解PPO算法是如何在LLM的Post Training中应用的。本文主要参考DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Ope 阅读全文

posted @ 2025-02-20 12:50 [X_O] 阅读(2046) 评论(2) 推荐(0)

Loading

Burglar

02 2025 档案

公告