01 2023 档案

摘要:奖励成分在多智能体学习中的重要性 总结: 探索智能体的奖励结构成分对多智能体系统合作程度和群体收益的影响,本质上是将智能体的奖励结构划分为个体奖励、团队奖励以及全局奖励三个部分,探索不同的比例对结果的影响。 环境: 重复囚徒困境 cleanup 具体实现: 奖励结构: 个体奖励,从环境获得 团队奖励 阅读全文
posted @ 2023-01-13 17:26 lanthanume 阅读(28) 评论(0) 推荐(0)
摘要:探索团队在多智能体学习中的收益 总结: 在传统的多智能体学习下提出创建团队模型的概念,研究在多智能体组中存在团队对促进合作和提高整体收益的影响。本质上是将一个多智能体系统划分为多个不直接竞争的团队并且不采用集中控制,为了使一个团队中的智能体具有共同利益,采用了特殊的智能体奖励处理。 环境: 重复囚徒 阅读全文
posted @ 2023-01-13 15:16 lanthanume 阅读(37) 评论(0) 推荐(0)
摘要:多智能体元梯度强化学习的自适应激励设计 总结: 提出了一种基于元梯度的多智能体强化学习自适应奖励机制,解决了较为复杂的多智能体强化学习下的奖励机制问题,最终证明该方法可以收敛至已知的全局最优解。 环境: Escape room、Cleanup 具体实现过程: 本质上是解决双层优化问题 在理想情况下一 阅读全文
posted @ 2023-01-06 23:52 lanthanume 阅读(137) 评论(0) 推荐(0)
摘要:量化多智能体强化学习中环境和种群多样性的影响 总结: 在多种实验环境下评估多智能体强化学习受到环境多样性以及智能体多样性的影响,主要是泛化能力 实验过程主要是通过改变训练智能体的数量和环境 环境: HavestPatch:具有特殊空间限制的Harvest,具有惩罚光束,将玩家短暂移出游戏 Traff 阅读全文
posted @ 2023-01-06 20:40 lanthanume 阅读(43) 评论(0) 推荐(0)