Loading

摘要: GRPO详解 GRPO详解 GRPO算法是在PPO算法的基础上进化而来的,在搞清楚GRPO算法前,需要先了解PPO算法是如何在LLM的Post Training中应用的。 本文主要参考DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Ope 阅读全文
posted @ 2025-02-20 12:50 [X_O] 阅读(1857) 评论(2) 推荐(0)
摘要: GROP详解 GRPO算法是在PPO算法的基础上进化而来的,在搞清楚GRPO算法前,需要先了解PPO算法是如何在LLM的Post Training中应用的。 本文主要参考DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Ope 阅读全文
posted @ 2025-02-20 12:40 [X_O] 阅读(734) 评论(0) 推荐(0)