随笔分类 - MARL
摘要:TRUST REGION POLICY OPTIMISATION IN MULTI-AGENT REINFORCEMENT LEARNING (HAPPO) 2109.11251 ICLR 2022 摘要: 作者说信任域方法带来的单调策略改进在MARL里不能简单适用。作者说本文发现的中心内容是mul
阅读全文
摘要:Coordinated Proximal Policy Optimization (CoPPO) 2111.04051 NeurIPS 2021 摘要: 提出了CoPPO。关键想法是,在对不同智能体进行策略更新时,对步长进行coordinated adaptation。证明了策略提升的单调性。基于一
阅读全文
摘要:The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games (MAPPO) 2103.01955 CTDE方式来使用多智能体PPO。在MPE、SMAC、Hanabi环境里进行了实验。发现MAPPO效果很好,样本效率比较好。
阅读全文
浙公网安备 33010602011771号