A Minimaximalist Approach to Reinforcement Learning from Human Feedback

基于强化学习的 SPO(Self-Play Preference Optimization,自博弈偏好优化),该论文针对传统从人类反馈强化学习(RLHF/PbRL)方法的缺陷,提出自博弈偏好优化(Self-Play Preference Optimization, SPO) 算法,核心思想可概括为 “以极小极大博弈为理论基础,通过单智能体自博弈简化 RLHF 流程,实现对复杂偏好的高效、鲁棒优化”,具体拆解如下:

1. 针对传统 RLHF 的核心痛点


传统 RLHF 方法存在三大关键问题:

  • 依赖奖励模型的局限性:需先训练奖励模型将偏好转化为绝对分数,但奖励模型隐含 “偏好存在全序关系” 假设,与人类决策的非传递性(如 A 偏好 B、B 偏好 C 却 A 不偏好 C)、群体偏好聚合后的无序性矛盾,且易因噪声导致生成多样性坍缩。
  • 对抗训练的不稳定性:部分无奖励模型方法(如双政策决斗)将 RLHF 建模为双人零和博弈,但需维护两个对抗政策,存在训练震荡、内存占用高的问题,仅适用于简单 bandit 场景。
  • 对复杂偏好鲁棒性差:难以处理非马尔可夫偏好(如仅约束轨迹后半段奖励)、随机偏好(人类标注噪声),易因复合误差导致策略偏离最优。

2. SPO 的核心设计:自博弈简化与极小极大博弈


为解决上述问题,SPO 以 “极简设计实现极大鲁棒性” 为目标,核心思路包括:

  • 理论基础:极小极大赢家(Minimax Winner, MW) 借鉴社会选择理论,将 RLHF 建模为双人零和博弈,最优解为 “极小极大赢家”—— 即随机化策略分布,保证对任意其他策略的平均偏好不低于某个阈值,且无需假设潜在奖励函数。相比传统方法依赖的 “Copeland 赢家”(要求唯一确定性最优策略),MW 可自然适配非传递性、随机偏好。

  • 关键简化:单智能体自博弈 利用偏好函数的反对称性(\(P(\xi_1,\xi_2) = -P(\xi_2,\xi_1)\)),证明存在 “对称极小极大赢家”(即两个博弈方策略完全一致),因此无需维护双政策,仅需让单个智能体与 “自身历史轨迹” 博弈:通过采样当前策略的多条轨迹,以某条轨迹对其他轨迹的胜率作为其奖励信号,避免对抗训练的不稳定性。

  • 实用化设计:轨迹队列与奖励分配 实际训练中维护固定大小的轨迹队列(如 10-100 条),新采样轨迹与队列中轨迹对比计算胜率,平衡 “策略更新时效性” 与 “对比基准稳定性”;同时将轨迹级奖励平均分配到每个时间步,保证不改变最优策略(论文 Lemma 2.7 证明),适配现有 RL 算法(如 PPO、SAC)。

3. 核心优势与实验验证


SPO 的核心优势通过连续控制任务验证,在四类偏好场景中均表现突出:

  • 传递性偏好(基础场景):当偏好可由真实奖励解释时,SPO 样本效率优于传统奖励模型(RM)方法,收敛速度更快。
  • 随机偏好(噪声场景):即使偏好标签带 Bernoulli 噪声(随机翻转),SPO 无需额外模型平滑,性能与 RM 相当,且避免 RM 因噪声导致的策略坍缩。
  • 非马尔可夫偏好(约束场景):针对 “最大化轨迹总奖励但约束后半段奖励不超过阈值” 等非马尔可夫需求,SPO 能学习到 “前半段高效积累奖励、后半段保守行动” 的策略,而 RM 因依赖马尔可夫奖励假设,难以突破约束。
  • 非传递性偏好(群体场景):聚合多个子群体的传递性偏好(整体呈现非传递性)时,SPO 可稳定收敛到 MW 随机策略,而 RM 强制输出确定性策略,偏离最优解。

4. 核心结论

SPO 通过 “去除奖励模型、简化对抗训练、依托极小极大博弈”,在理论上突破了传统 RLHF 对偏好结构的限制(无需传递性、马尔可夫性假设),在实践中实现了 “更简单的实现、更高的样本效率、更强的鲁棒性”,为复杂场景(如 LLM 偏好微调、机器人复杂任务约束)的 RLHF 提供了更优解决方案。

image

image

 

posted on 2025-08-26 18:18  limingqi  阅读(9)  评论(0)    收藏  举报

导航