2025 年 8月 26 日随笔档案 - limingqi

2025年8月26日

A Minimaximalist Approach to Reinforcement Learning from Human Feedback

摘要：基于强化学习的 SPO（Self-Play Preference Optimization，自博弈偏好优化），该论文针对传统从人类反馈强化学习（RLHF/PbRL）方法的缺陷，提出自博弈偏好优化（Self-Play Preference Optimization, SPO）算法，核心思想可概括为阅读全文

posted @ 2025-08-26 18:18 limingqi 阅读(20) 评论(0) 推荐(0)

奖励模型场景适配以及效率优化

摘要：要解决 “奖励方法的场景适配” 与 “在线 RL 评估效率优化” 问题，需先明确在线 RL（实时交互、策略动态更新）与离线评测（依赖固定数据集、评估静态策略）的核心差异，再针对性拆解奖励方法的适配逻辑，以及评估效率的瓶颈解决方案。一、常见奖励方法的在线 RL / 离线评测适配性不同奖励方法的设计阅读全文

posted @ 2025-08-26 18:15 limingqi 阅读(46) 评论(0) 推荐(0)

A Minimaximalist Approach to Reinforcement Learning from Human Feedback

奖励模型场景适配以及效率优化

导航

公告