PbRL · MARL | 近期 preference-based MARL 工作速读




Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques

速读总结:

  • 这篇文章似乎关注 offline Pb-MARL。故事好像是,传统的 offline RL 中,只要数据集覆盖了最优策略,就能通过悲观 offline RL 算法恢复出最优策略。然而,在 MARL 里,数据集需要覆盖“所有玩家单方面偏离纳什均衡的情况”才能做到最优。有相关理论证明。
  • 具体 setting:
    • 只能拿到一个 offline 数据集 \(D = \{(\tau_0, \tau_1, p_i)\}\),其中 τ 是轨迹片段,\(p_i\) 是第 i 个 agent 的 preference,可以用来学 agent 的局部 reward model。
    • 做的是 CTDE,各个 agent 可以一起训练,但部署的时候,只能看见全局 state 然后输出自己的 action \(a_i\),不能同时看见其他 agent 的 action。
    • 希望学一个“近似纳什均衡”的策略,Nash-Gap(π) ≤ ε 的 ε-纳什均衡 —— 没有任何玩家能通过单方面改策略来显著提升自己的总回报。
  • method:先学出每个 agent 的 reward model,然后给轨迹标注 reward,使用悲观 offline MARL 算法学策略。在学 reward model 这一步,加了一个 MSE 正则项,强制相邻时间步的奖励预测变化平滑,防止 reward 信号全挤在轨迹末尾。然后,使用 behavior cloning 学习行为策略,这个行为策略是用来约束 policy 不要离行为策略太远的。最后的 MARL 算法是基于 VDN 的。

Decoding Global Preferences: Temporal and Cooperative Dependency Modeling in Multi-Agent Preference-Based Reinforcement Learning

速读总结:

  • 好像提出了 multi-agent preference transformer。故事好像是,reward 比较稀疏,需要引入 human preference 做 credit assignment。如果能用 transformer 来捕获时序和 agent 之间合作的关系,即,用 transformer 作为 reward model,性能可能会更好。
  • setting:
    • preference 信号是全局的,而非单个 agent 的。
    • 使用 50000 条(SMAC/Football)或 30000 条(Bi-DexHands/Ma-Mujoco) preference。这些 segment 是 expert 策略生成的,preference 是用 scripted teacher 打的。
    • 得到 reward model 后,直接运行 online MARL 算法。应该是 CTDE 的。使用 MAT(Multi-Agent Transformer)方法来学策略,好像是把中心化的 value 网络变成了 transformer。
  • method:这个 multi-agent PT 的一些 attention 建模,应该捕获了(比如说)agent 之间互动的关系。没有仔细看。

O-MAPL: Offline Multi-agent Preference Learning

速读总结:

  • 有可能是 inverse preference learning(IPL)或者 DPPO(另一篇把 reward model 干掉的 PbRL 工作)的 multi-agent 拓展。故事:现有 Pb-MARL 方法总是先训 reward 后训 policy,但如果能跳过训 reward 的阶段,可能会更好。在最大熵强化学习(MaxEnt RL)框架下,奖励函数和 soft-Q 函数存在对应关系,所以可以跳过奖励建模,直接从偏好数据学 Q 函数。
  • setting:包含两个 dataset:一个 preference dataset,使用正常的 segment 和全局 preference;一个 offline dataset,用来做 offline marl。preference 可以人类打,也可以让 LLM 读 state 信息来生成。
  • method:先用 preference 数据直接学到 Q 函数,然后再用线性加权的分解(感觉思想像 VDN 和 QMIX,用“单层线性混合网络”来做 QMIX)得到每个 agent 的 Q 和 value 函数,最后使用(看起来像是 AWR 的)加权 behavior cloning 来训策略。
  • 理论:
    • 理论基础:MaxEnt RL 的 reward-Q 对应的理论,应该跟 IPL 差不多。
    • 有一些凸函数的理论,大意好像是,使用线性网络来把局部 Q function 变成全局 Q function,那么原先是凸 / 凹的东西还是凸 / 凹的。所以,分解 Q function 后,仍然有唯一全局最优解。
    • 好像是类似 AWR 形式得到的 policy 的理论特点:通过加权行为克隆(WBC)提取的 agent i 的策略 πᵢ,满足全局-局部一致性(GLC)。
    • 理论 4.4 是有最优局部策略有闭式解,理论 4.5 是全局 \(V_{tot}\)\(Q_{tot}\) 的 log-sum-exp,但局部也有这种关系。这两个理论没看懂。

M³HF: Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed Quality

总结:

  • 这篇文章并不是 Pb-MARL。好像是用 LLM 来设计 multi-agent 的 reward。
  • method:
    • LLM 可以给出 agent 应该怎么做的大致指导,比如在 overcooked 环境里,LLM 希望红色厨师去拿西红柿,蓝色厨师去拿洋葱。
    • 这些 LLM 的指导,通过一些预定义的、硬编码写好的原语,转化为 python 代码的 reward function。比如,“红色厨师去拿西红柿”可以转换成 maximize [-distance(红色厨师, 西红柿)]。
    • 每过一段时间,算法就让 LLM 生成一个新的 reward,将其加入 reward 库中。算法为这些 reward 维护一个动态变化的权重,保证 Σw = 1。新 reward 的权重被设为 1/M,其中 M 是 reward 的个数,旧 reward 的权重也相应衰减。
    • 然后,对于刚加进来的 reward,我们根据 policy 性能的变化,调整它的权重。具体的,如果把它加进来之后,policy 性能变好了,则把它的权重调高,反之调低,最后再等比例调整所有 reward 的权重,保证 Σw = 1。这部分不清楚具体算法细节。
    • (这样看来,这篇文章应该假设能访问 ground truth reward,或者至少能访问某种性能指标,不然没法评测 reward 设计的好不好。)
  • 这篇文章关注 LLM 与 RL 的结合,这个结合角度或许是有趣的。

DPM: Dual Preferences-based Multi-Agent Reinforcement Learning

速读总结:

  • 故事:多智能体强化学习(MARL)在稀疏奖励环境下的训练困境 —— 智能体只有打赢 / 打输时才获得奖励,中间过程没有任何反馈,导致很难学会有效协作。如果 preference 是全局 preference,那么无法从中判定每个 agent 的贡献大小。这篇文章希望,在多智能体协作中,既要宏观判断整体战术好坏,也要微观评估每个个体的贡献。
  • dual preference:首先,对于两个轨迹,使用 scripted teacher 来给出全局 preference。然后,对于一段轨迹,让 LLM 比较各个 agent 的贡献大小,得到一个 ranked list,可以从里面生成 n(n-1)/2 个 preference。这两种 preference,可以对应两种 cross-entropy loss。
  • setting:是 online MARL。给每个 agent 学一个 reward model。
  • method:使用 dual preference,每个 agent 训一个独立的奖励网络,然后把这个 reward 加到总 reward 上,最后用 QMIX 训策略。实验证明,这个方法可以有效增强 sparse reward 下的 agent 性能。

Human Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV Swarm

总结:

  • setting:这篇文章假设可以访问全局的 ground truth reward,并且隐含地假设各个 agent 之间是同质、可比较的。preference 信号好像是一段轨迹 各个 agent 之间相互比较得到的,即,agent i 是否比 agent j 好。
  • method:可能直接用 Bradley-Terry model 学了各个 agent 的 reward model,然后把这个 reward 加到 ground truth 全局 reward 上,加速 policy 学习。

Offline Multi-Agent Preference-based Reinforcement Learning with Agent-aware Direct Preference Optimization

速读记录:

  • 可能是 DPO 的 multi-agent 推广。
  • 故事:先前工作存在“全局-局部偏好不一致”的问题,导致一些被队友带飞的做的不好的 agent,也被赋予了高的 reward。同时,先前的学 reward - 学 policy 两阶段范式不够好。
  • setting:因此,这个工作引入了全局和局部的 preference 标签。标签生成:用 QMIX / EMC 算法预训练不同质量策略(好 / 中 / 差三档),然后按全局胜率打偏好标签,同时按策略质量打局部标签。偏好数据集:500 条轨迹对,含全局 + 局部偏好标签。好像是 offline MARL。
  • method:
    • 使用了 MAPT(Multi-Agent Preference Transformer)来作为 reward model,貌似 MAPT 既能建模全局 reward,也能顺便得到每个 agent 的 reward。对于全局 / 局部 preference 同时优化 MAPT reward model。
    • 给定一个 offline 的 segment pair 数据集 \((\sigma_0, \sigma_1)\),使用 reward model 来标注每条轨迹的 agent 的 weight 大小,越好的 agent 的 weight 就越大。这个标注好像有一个 trick,对差轨迹 σ⁻ 里的智能体,权重反转。
    • 接下来,定义了一个 策略-轨迹散度,再定义 策略-数据集的散度 = 加权的策略-轨迹散度,把这个散度带入(好像是 DPO 的)优化形式里。
  • 我其实不太懂 DPO,所以这篇文章的 method 也没太看懂。

感谢合作者对部分文章的讲解🍵


posted @ 2025-12-15 14:20  MoonOut  阅读(13)  评论(0)    收藏  举报