摘要: 提出的问题: 现有的对多智能体强化学习的评估工具没有将多智能体强化学习泛化的新情况评估作为主要目标。 传统的监督学习和受益于明确的实验环境和存在的评价基准,能够较为简单的进行评估,但是对于强化学习来说,生成一组测试环境比标记一组测试数据所需要的资源消耗是要更多的。 解决方案及创新: 提出了名为Mel 阅读全文
posted @ 2022-11-03 23:41 lanthanume 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 背景: ​ 现有的多智能体强化学习都是从单智能体强化学习发展而来的,其中智能体奖励都是由环境定义。在此基础上,文章提出了一种智能体之间的奖励机制,期望其能够对学习过程有所帮助,并优化训练过程,文章证明了这种机制可以改善资源占用环境中的学习进度,并对学习过程进行了分析。 创新点: ​ 在现有的多智能体 阅读全文
posted @ 2022-11-03 15:30 lanthanume 阅读(54) 评论(0) 推荐(0) 编辑