02 2025 档案
摘要:
GRPO详解 GRPO算法是在PPO算法的基础上进化而来的,在搞清楚GRPO算法前,需要先了解PPO算法是如何在LLM的Post Training中应用的。 本文主要参考DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Ope
阅读全文
GRPO详解 GRPO算法是在PPO算法的基础上进化而来的,在搞清楚GRPO算法前,需要先了解PPO算法是如何在LLM的Post Training中应用的。 本文主要参考DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Ope
阅读全文

浙公网安备 33010602011771号