摘要: 学习解决多人零和博弈中的联盟困境 总结: 将两人的零和博弈扩展到多人零和博弈,并将多人零和博弈中的联盟问题转为社会困境问题用基于强化学习的方法进行解决。先是说明了一般的强化学习方法无法解决,由此在其基础上添加了一个契约机制使联盟问题得到解决。 环境: 多人零和博弈下的联盟困境:将除了两个智能体之外的 阅读全文
posted @ 2022-11-26 02:38 lanthanume 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 基于强化学习的多智能体系统合作伙伴选择 总结: 提出了一个合作伙伴选择模型,模型中的智能体先由单独的奖励目标函数用Q-learnng训练(环境为重复的囚徒困境,进行一定轮次),并且训练过程中的交互信息都会被呈现给其他智能体。基于该信息每个智能体在每一轮开始时挑选合作伙伴并一起参与该困境并从经验中学习 阅读全文
posted @ 2022-11-25 20:22 lanthanume 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 环境: Fishery:湖两岸有两个钓鱼人互相观察不到对方的动作,湖里有幼鱼和成熟鱼奖励分别为1和2,鱼游到对岸变成成熟鱼。合作方案即将幼鱼放给对岸,背叛即被诱惑吊幼鱼。 Pong Player's Dilemma(PPD):乒乓球比赛,赢者得一分,输者扣两分。合作行为即不进行比赛。 PPD升级版: 阅读全文
posted @ 2022-11-20 01:45 lanthanume 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 环境: 猎鹿博弈(即代理人要么选择有风险的合作政策,单独代理人选择会导致低收益;要么选择一个安全的合作政策,无论怎么样都会有安全收益)存在多个纳什均衡的环境 h > c >=m > g 创新点: 目标:最终收敛到狩猎均衡获得更高收益,而不是低收益的均衡 采用亲社会代理人机制,代理人考虑伙伴的奖励采取 阅读全文
posted @ 2022-11-18 16:29 lanthanume 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 背景及问题: 外部代理如何在观察学习智能体的基础上分配额外的奖惩促进学习者之间的合作。 创新及问题解决: 提出一条规则:通过考虑智能体预期的参数更新来自动学习创建正确的激励措施(等同于创建一种自适应社会奖惩机制) 证明了在某些环境下,措施在一定时间后关闭合作结果也是稳定的,而有些游戏则需要持续性的干 阅读全文
posted @ 2022-11-12 01:02 lanthanume 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 背景及相关问题: 多代理的学习中,通过奖励代理对其他代理产生的影响,可以增进多代理在强化学习中的合作和沟通。之前在MARL环境中关于紧急通信的方式无法以分散的方式学习各种策略,而使代理能够通过深度神经网络学习其他代理状况的模型可以用离散的方式计算所有代理的影响力奖励。(强化学习的内在动机问题) 之前 阅读全文
posted @ 2022-11-11 18:18 lanthanume 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 背景及问题: 过去有关公共池资源占用的问题上通常采用非合作博弈论的抽象预测模型仅仅考虑个人利益,往往无法找到比较好的社会均衡结果,并且仅仅考虑了占用多少这个维度 现在的该类问题向空间和时间资源动态扩展,非合作博弈论不再适用该种问题 创新及问题的解决: 论文采用深度强化学习的方法替代了原有的非合作博弈 阅读全文
posted @ 2022-11-11 17:02 lanthanume 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 背景: 多个智能体在环境中交互时(主要是模仿人类的团队行为例如篮球比赛等,只有通过合作才能够达到一定的目的),通常是需要合作从而实现最终目标,即达到最佳总收益。一般来说,实现上述目标的方法是组建一个团队并且需要制定一定的团队规则并实施,才能保证团队的运行,最重要的是要考虑到其中某些智能体的背叛行为导 阅读全文
posted @ 2022-11-04 11:49 lanthanume 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 提出的问题: 现有的对多智能体强化学习的评估工具没有将多智能体强化学习泛化的新情况评估作为主要目标。 传统的监督学习和受益于明确的实验环境和存在的评价基准,能够较为简单的进行评估,但是对于强化学习来说,生成一组测试环境比标记一组测试数据所需要的资源消耗是要更多的。 解决方案及创新: 提出了名为Mel 阅读全文
posted @ 2022-11-03 23:41 lanthanume 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 背景: ​ 现有的多智能体强化学习都是从单智能体强化学习发展而来的,其中智能体奖励都是由环境定义。在此基础上,文章提出了一种智能体之间的奖励机制,期望其能够对学习过程有所帮助,并优化训练过程,文章证明了这种机制可以改善资源占用环境中的学习进度,并对学习过程进行了分析。 创新点: ​ 在现有的多智能体 阅读全文
posted @ 2022-11-03 15:30 lanthanume 阅读(16) 评论(0) 推荐(0) 编辑