摘要:
问题 给你一个整数数组 nums 和一个整数 k。 你可以对数组中的每个元素 最多 执行 一次 以下操作: 将一个在范围 [-k, k] 内的整数加到该元素上。 返回执行这些操作后,nums 中可能拥有的不同元素的 最大 数量。 示例 1: 输入: nums = [1,2,2,3,3,4], k = 阅读全文
posted @ 2025-10-18 14:50
saulstavo
阅读(8)
评论(0)
推荐(0)
摘要:
参考视频 GRPO 指的是 Group Relative Policy Optimization(组相对策略优化),最早由 DeepSeek 在 DeepSeekMath 里提出,用来做 LLM 的 RL(尤其是推理/Chain-of-Thought 任务)的高效替代 PPO 的算法。 PPO 需要 阅读全文
posted @ 2025-10-18 13:59
saulstavo
阅读(14)
评论(0)
推荐(0)

浙公网安备 33010602011771号