PbRL · MARL | 近期 preference-based MARL 工作速读

Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques
Decoding Global Preferences: Temporal and Cooperative Dependency Modeling in Multi-Agent Preference-Based Reinforcement Learning
O-MAPL: Offline Multi-agent Preference Learning
M³HF: Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed Quality
DPM: Dual Preferences-based Multi-Agent Reinforcement Learning
Human Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV Swarm
Offline Multi-Agent Preference-based Reinforcement Learning with Agent-aware Direct Preference Optimization

Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques

信息：投稿 ICLR 2025。
arxiv：https://arxiv.org/abs/2409.00717
pdf：https://arxiv.org/pdf/2409.00717
html：https://arxiv.org/html/2409.00717
OpenReview：https://openreview.net/forum?id=4vPC6Aj6N7
这篇文章声称自己是第一个做 Pb-MARL 的。好像还有理论。

速读总结：

这篇文章似乎关注 offline Pb-MARL。故事好像是，传统的 offline RL 中，只要数据集覆盖了最优策略，就能通过悲观 offline RL 算法恢复出最优策略。然而，在 MARL 里，数据集需要覆盖“所有玩家单方面偏离纳什均衡的情况”才能做到最优。有相关理论证明。
具体 setting：
- 只能拿到一个 offline 数据集 \(D = \{(\tau_0, \tau_1, p_i)\}\)，其中 τ 是轨迹片段，\(p_i\) 是第 i 个 agent 的 preference，可以用来学 agent 的局部 reward model。
- 做的是 CTDE，各个 agent 可以一起训练，但部署的时候，只能看见全局 state 然后输出自己的 action \(a_i\)，不能同时看见其他 agent 的 action。
- 希望学一个“近似纳什均衡”的策略，Nash-Gap(π) ≤ ε 的 ε-纳什均衡 —— 没有任何玩家能通过单方面改策略来显著提升自己的总回报。
method：先学出每个 agent 的 reward model，然后给轨迹标注 reward，使用悲观 offline MARL 算法学策略。在学 reward model 这一步，加了一个 MSE 正则项，强制相邻时间步的奖励预测变化平滑，防止 reward 信号全挤在轨迹末尾。然后，使用 behavior cloning 学习行为策略，这个行为策略是用来约束 policy 不要离行为策略太远的。最后的 MARL 算法是基于 VDN 的。

Decoding Global Preferences: Temporal and Cooperative Dependency Modeling in Multi-Agent Preference-Based Reinforcement Learning

信息：AAAI 2024。
pdf：https://ojs.aaai.org/index.php/AAAI/article/view/29666 从这个链接里面下载，或者直接点击下载。
GitHub：https://github.com/catezi/MAPT
好像提出了 multi-agent preference transformer。

速读总结：

好像提出了 multi-agent preference transformer。故事好像是，reward 比较稀疏，需要引入 human preference 做 credit assignment。如果能用 transformer 来捕获时序和 agent 之间合作的关系，即，用 transformer 作为 reward model，性能可能会更好。
setting：
- preference 信号是全局的，而非单个 agent 的。
- 使用 50000 条（SMAC/Football）或 30000 条（Bi-DexHands/Ma-Mujoco） preference。这些 segment 是 expert 策略生成的，preference 是用 scripted teacher 打的。
- 得到 reward model 后，直接运行 online MARL 算法。应该是 CTDE 的。使用 MAT（Multi-Agent Transformer）方法来学策略，好像是把中心化的 value 网络变成了 transformer。
method：这个 multi-agent PT 的一些 attention 建模，应该捕获了（比如说）agent 之间互动的关系。没有仔细看。

O-MAPL: Offline Multi-agent Preference Learning

信息：ICML 2025。
arxiv：https://arxiv.org/pdf/2501.18944
pdf：https://arxiv.org/pdf/2501.18944
html：https://arxiv.org/html/2501.18944
OpenReview：https://openreview.net/forum?id=FYvrNKYu6H
反正是 Pb-MARL 工作。甚至是 offline RL 工作。

速读总结：

有可能是 inverse preference learning（IPL）或者 DPPO（另一篇把 reward model 干掉的 PbRL 工作）的 multi-agent 拓展。故事：现有 Pb-MARL 方法总是先训 reward 后训 policy，但如果能跳过训 reward 的阶段，可能会更好。在最大熵强化学习（MaxEnt RL）框架下，奖励函数和 soft-Q 函数存在对应关系，所以可以跳过奖励建模，直接从偏好数据学 Q 函数。
setting：包含两个 dataset：一个 preference dataset，使用正常的 segment 和全局 preference；一个 offline dataset，用来做 offline marl。preference 可以人类打，也可以让 LLM 读 state 信息来生成。
method：先用 preference 数据直接学到 Q 函数，然后再用线性加权的分解（感觉思想像 VDN 和 QMIX，用“单层线性混合网络”来做 QMIX）得到每个 agent 的 Q 和 value 函数，最后使用（看起来像是 AWR 的）加权 behavior cloning 来训策略。
理论：
- 理论基础：MaxEnt RL 的 reward-Q 对应的理论，应该跟 IPL 差不多。
- 有一些凸函数的理论，大意好像是，使用线性网络来把局部 Q function 变成全局 Q function，那么原先是凸 / 凹的东西还是凸 / 凹的。所以，分解 Q function 后，仍然有唯一全局最优解。
- 好像是类似 AWR 形式得到的 policy 的理论特点：通过加权行为克隆（WBC）提取的 agent i 的策略 πᵢ，满足全局-局部一致性（GLC）。
- 理论 4.4 是有最优局部策略有闭式解，理论 4.5 是全局 \(V_{tot}\) 是 \(Q_{tot}\) 的 log-sum-exp，但局部也有这种关系。这两个理论没看懂。

M³HF: Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed Quality

信息：ICML 2025。
arxiv：https://arxiv.org/abs/2503.02077
pdf：https://arxiv.org/pdf/2503.02077
html 坏掉了。
GitHub：https://github.com/cooperativex/M3HF
OpenReview：https://openreview.net/forum?id=2Sl6Ex7Vmo

总结：

这篇文章并不是 Pb-MARL。好像是用 LLM 来设计 multi-agent 的 reward。
method：
- LLM 可以给出 agent 应该怎么做的大致指导，比如在 overcooked 环境里，LLM 希望红色厨师去拿西红柿，蓝色厨师去拿洋葱。
- 这些 LLM 的指导，通过一些预定义的、硬编码写好的原语，转化为 python 代码的 reward function。比如，“红色厨师去拿西红柿”可以转换成 maximize [-distance(红色厨师, 西红柿)]。
- 每过一段时间，算法就让 LLM 生成一个新的 reward，将其加入 reward 库中。算法为这些 reward 维护一个动态变化的权重，保证 Σw = 1。新 reward 的权重被设为 1/M，其中 M 是 reward 的个数，旧 reward 的权重也相应衰减。
- 然后，对于刚加进来的 reward，我们根据 policy 性能的变化，调整它的权重。具体的，如果把它加进来之后，policy 性能变好了，则把它的权重调高，反之调低，最后再等比例调整所有 reward 的权重，保证 Σw = 1。这部分不清楚具体算法细节。
- （这样看来，这篇文章应该假设能访问 ground truth reward，或者至少能访问某种性能指标，不然没法评测 reward 设计的好不好。）
这篇文章关注 LLM 与 RL 的结合，这个结合角度或许是有趣的。

DPM: Dual Preferences-based Multi-Agent Reinforcement Learning

信息：ICLR 2025 投稿。
OpenReview：https://openreview.net/forum?id=VzuPnoSKQ1
阅读博客：知乎 | 文献阅读笔记28. DPM
发现他们已经开始关注 PbRL 可以让 reward sparse-to-dense 了。
这篇文章有 dual preference，不知道是什么。这篇文章做 online MARL。

速读总结：

故事：多智能体强化学习（MARL）在稀疏奖励环境下的训练困境 —— 智能体只有打赢 / 打输时才获得奖励，中间过程没有任何反馈，导致很难学会有效协作。如果 preference 是全局 preference，那么无法从中判定每个 agent 的贡献大小。这篇文章希望，在多智能体协作中，既要宏观判断整体战术好坏，也要微观评估每个个体的贡献。
dual preference：首先，对于两个轨迹，使用 scripted teacher 来给出全局 preference。然后，对于一段轨迹，让 LLM 比较各个 agent 的贡献大小，得到一个 ranked list，可以从里面生成 n(n-1)/2 个 preference。这两种 preference，可以对应两种 cross-entropy loss。
setting：是 online MARL。给每个 agent 学一个 reward model。
method：使用 dual preference，每个 agent 训一个独立的奖励网络，然后把这个 reward 加到总 reward 上，最后用 QMIX 训策略。实验证明，这个方法可以有效增强 sparse reward 下的 agent 性能。

Human Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV Swarm

信息：合作者看到的 IROS 2025 论文。
arxiv：https://arxiv.org/abs/2503.03796
pdf：https://arxiv.org/pdf/2503.03796
html：https://arxiv.org/html/2503.03796

总结：

setting：这篇文章假设可以访问全局的 ground truth reward，并且隐含地假设各个 agent 之间是同质、可比较的。preference 信号好像是一段轨迹各个 agent 之间相互比较得到的，即，agent i 是否比 agent j 好。
method：可能直接用 Bradley-Terry model 学了各个 agent 的 reward model，然后把这个 reward 加到 ground truth 全局 reward 上，加速 policy 学习。

Offline Multi-Agent Preference-based Reinforcement Learning with Agent-aware Direct Preference Optimization

信息：AAMAS 2025。
url：https://dl.acm.org/doi/10.5555/3709347.3743639

速读记录：

可能是 DPO 的 multi-agent 推广。
故事：先前工作存在“全局-局部偏好不一致”的问题，导致一些被队友带飞的做的不好的 agent，也被赋予了高的 reward。同时，先前的学 reward - 学 policy 两阶段范式不够好。
setting：因此，这个工作引入了全局和局部的 preference 标签。标签生成：用 QMIX / EMC 算法预训练不同质量策略（好 / 中 / 差三档），然后按全局胜率打偏好标签，同时按策略质量打局部标签。偏好数据集：500 条轨迹对，含全局 + 局部偏好标签。好像是 offline MARL。
method：
- 使用了 MAPT（Multi-Agent Preference Transformer）来作为 reward model，貌似 MAPT 既能建模全局 reward，也能顺便得到每个 agent 的 reward。对于全局 / 局部 preference 同时优化 MAPT reward model。
- 给定一个 offline 的 segment pair 数据集 \((\sigma_0, \sigma_1)\)，使用 reward model 来标注每条轨迹的 agent 的 weight 大小，越好的 agent 的 weight 就越大。这个标注好像有一个 trick，对差轨迹 σ⁻ 里的智能体，权重反转。
- 接下来，定义了一个策略-轨迹散度，再定义策略-数据集的散度 = 加权的策略-轨迹散度，把这个散度带入（好像是 DPO 的）优化形式里。
我其实不太懂 DPO，所以这篇文章的 method 也没太看懂。

感谢合作者对部分文章的讲解🍵

posted @ 2025-12-15 14:20 MoonOut 阅读(40) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙

PbRL · MARL | 近期 preference-based MARL 工作速读

Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques

Decoding Global Preferences: Temporal and Cooperative Dependency Modeling in Multi-Agent Preference-Based Reinforcement Learning

O-MAPL: Offline Multi-agent Preference Learning

M³HF: Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed Quality

DPM: Dual Preferences-based Multi-Agent Reinforcement Learning

Human Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV Swarm

Offline Multi-Agent Preference-based Reinforcement Learning with Agent-aware Direct Preference Optimization

公告