摘要: GRPO 组相对策略优化(GRPO) GRPO (Group Relative Policy Optimization) 是 DeepSeek AI 对 PPO 的一种聪明的改进,旨在更加高效,尤其是在复杂的推理任务中。 GRPO 就像是 PPO 的精简版表亲。它保留了 PPO 的核心思想,但去掉了 阅读全文
posted @ 2025-07-08 15:41 jack-chen666 阅读(1234) 评论(0) 推荐(0)