2022 年 6月随笔档案 - 明2022

TRUST REGION POLICY OPTIMISATION IN MULTI-AGENT REINFORCEMENT LEARNING (HAPPO)

摘要：TRUST REGION POLICY OPTIMISATION IN MULTI-AGENT REINFORCEMENT LEARNING (HAPPO) 2109.11251 ICLR 2022 摘要：作者说信任域方法带来的单调策略改进在MARL里不能简单适用。作者说本文发现的中心内容是mul 阅读全文

posted @ 2022-06-21 10:16 明2022 阅读(371) 评论(0) 推荐(0)

Coordinated Proximal Policy Optimization (CoPPO)

摘要：Coordinated Proximal Policy Optimization (CoPPO) 2111.04051 NeurIPS 2021 摘要：提出了CoPPO。关键想法是，在对不同智能体进行策略更新时，对步长进行coordinated adaptation。证明了策略提升的单调性。基于一阅读全文

posted @ 2022-06-20 21:49 明2022 阅读(342) 评论(0) 推荐(0)

The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games (MAPPO)

摘要：The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games (MAPPO) 2103.01955 CTDE方式来使用多智能体PPO。在MPE、SMAC、Hanabi环境里进行了实验。发现MAPPO效果很好，样本效率比较好。阅读全文

posted @ 2022-06-19 17:31 明2022 阅读(657) 评论(0) 推荐(0)

事后观察经验回放 Hindsight Experience Replay (HER)

摘要：事后观察经验回放。OpenAI的论文。 1707.01495 摘要：处理稀疏奖励。提出了Hindsight Experience Replay新技术，使得可以从稀疏二元的奖励中进行有效的学习。可以与任意off-policy的强化学习算法结合。可以看作一种implicit curriculum。在阅读全文

posted @ 2022-06-19 10:50 明2022 阅读(1066) 评论(0) 推荐(0)

06 2022 档案

公告