2025 年 10月 18 日随笔档案 - saulstavo

2025年10月18日

摘要：问题给你一个整数数组 nums 和一个整数 k。你可以对数组中的每个元素最多执行一次以下操作：将一个在范围 [-k, k] 内的整数加到该元素上。返回执行这些操作后，nums 中可能拥有的不同元素的最大数量。示例 1：输入： nums = [1,2,2,3,3,4], k = 阅读全文

posted @ 2025-10-18 14:50 saulstavo 阅读(9) 评论(0) 推荐(0)

GRPO

摘要：参考视频 GRPO 指的是 Group Relative Policy Optimization（组相对策略优化），最早由 DeepSeek 在 DeepSeekMath 里提出，用来做 LLM 的 RL（尤其是推理/Chain-of-Thought 任务）的高效替代 PPO 的算法。 PPO 需要阅读全文

posted @ 2025-10-18 13:59 saulstavo 阅读(19) 评论(0) 推荐(0)

saulstavo

公告