随笔档案「2025年2月20日」：GRPO详解 ... - [X_O]

2025年2月20日

摘要：

GRPO详解 GRPO算法是在PPO算法的基础上进化而来的，在搞清楚GRPO算法前，需要先了解PPO算法是如何在LLM的Post Training中应用的。本文主要参考DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Ope 阅读全文

posted @ 2025-02-20 12:50 [X_O] 阅读(2154) 评论(2) 推荐(0)

Loading

Burglar

公告