Gifting in Multi-Agent Reinforcement Learning

现有的多智能体强化学习都是从单智能体强化学习发展而来的，其中智能体奖励都是由环境定义。在此基础上，文章提出了一种智能体之间的奖励机制，期望其能够对学习过程有所帮助，并优化训练过程，文章证明了这种机制可以改善资源占用环境中的学习进度，并对学习过程进行了分析。

在现有的多智能体强化学习基础上，提出了多智能体之间的互相奖励机制，有利于学习进度。

环境设置为Harvest，十个智能体竞争收集apple，获取则收获1的奖励(之前的代理通过激光束调节竞争过程，但是会导致“公地悲剧”即资源会快速耗尽，每个智能体汇报较小)

增加馈赠光束，B= 40，每收集两个苹果预算增加1，每个智能体由深度Q网络控制。代理奖励由环境和同伴奖励组成。四个评价指标分别为：代理平均回报R、可持续性S衡量收集环境奖励的平均时间，和P衡量在任意地点未标记代理的平均数量，E由基尼不平等指数给出。
实验结果：
- 验证零和机制的优势，遇到公地悲剧时，所有代理都会增加设计频率。验证得到主要是零和机制智能体所需要学习的东西更少即只需要掌握什么时候调整奖励，而相对来说预算机制还需要考虑环境反馈的预算调整之类的东西：
- 最终结论就是零和机制会调节智能体的贪婪程度，使得环境资源被耗尽的速度减小，增加了可持续时长同时也避免了公地悲剧的出现。

posted @ 2022-11-03 15:30 lanthanume 阅读(93) 评论(0) 收藏举报

刷新页面返回顶部

lanthanume