博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2025年2月17日

摘要: GRPO (Group Relative Policy Optimization ) GRPO https://arxiv.org/pdf/2402.03300 对于每个question q,GRPO从old policy \(\pi_{old}\) 采样一组输出 \({o_1, o_2 ...,o 阅读全文

posted @ 2025-02-17 19:23 Antel 阅读(671) 评论(0) 推荐(0)