2025 年 7月 8 日随笔档案 - jack-chen666

2025年7月8日

摘要： GRPO 组相对策略优化（GRPO） GRPO (Group Relative Policy Optimization) 是 DeepSeek AI 对 PPO 的一种聪明的改进，旨在更加高效，尤其是在复杂的推理任务中。 GRPO 就像是 PPO 的精简版表亲。它保留了 PPO 的核心思想，但去掉了阅读全文

posted @ 2025-07-08 15:41 jack-chen666 阅读(1234) 评论(0) 推荐(0)

红豆生南国是很遥远的事情

种豆南山下 github

公告

红豆生南国 是很遥远的事情

种豆南山下 github

公告

红豆生南国是很遥远的事情