2025年8月26日

A Minimaximalist Approach to Reinforcement Learning from Human Feedback

摘要: 基于强化学习的 SPO(Self-Play Preference Optimization,自博弈偏好优化),该论文针对传统从人类反馈强化学习(RLHF/PbRL)方法的缺陷,提出自博弈偏好优化(Self-Play Preference Optimization, SPO) 算法,核心思想可概括为 阅读全文

posted @ 2025-08-26 18:18 limingqi 阅读(12) 评论(0) 推荐(0)

奖励模型场景适配以及效率优化

摘要: 要解决 “奖励方法的场景适配” 与 “在线 RL 评估效率优化” 问题,需先明确在线 RL(实时交互、策略动态更新)与离线评测(依赖固定数据集、评估静态策略)的核心差异,再针对性拆解奖励方法的适配逻辑,以及评估效率的瓶颈解决方案。 一、常见奖励方法的在线 RL / 离线评测适配性 不同奖励方法的设计 阅读全文

posted @ 2025-08-26 18:15 limingqi 阅读(28) 评论(0) 推荐(0)

导航