摘要: 从相互交换确认中产生合作 总结: 为了改进传统的激励其他代理人机制,其存在隐私侵犯的问题,文中提出一种两阶段的请求和回应机制,即即使想要激励其他人送出的东西还需要得到接收方的回馈,接收方通过一个判断函数决定是否接收,接收则回馈同等奖励,不接受则回馈等绝对值得负面奖励。通过这样一个通信机制解决信息暴露 阅读全文
posted @ 2022-12-10 22:57 lanthanume 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 学会激励其他学习智能体 总结: 为了促进在一般和马尔可夫游戏中的多智能体之间的合作,为每个智能体配置一个奖励函数用来直接向其他智能体提供奖励,并明确解释接受该奖励者自身行为会受到的影响。该奖励函数会根据提供的奖励对其他智能体的产生的影响以及后续其他智能体对自己获取的环境奖励的影响来不断学习。使用该机 阅读全文
posted @ 2022-12-10 17:54 lanthanume 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 学习解决多人零和博弈中的联盟困境 总结: 将两人的零和博弈扩展到多人零和博弈,并将多人零和博弈中的联盟问题转为社会困境问题用基于强化学习的方法进行解决。先是说明了一般的强化学习方法无法解决,由此在其基础上添加了一个契约机制使联盟问题得到解决。 环境: 多人零和博弈下的联盟困境:将除了两个智能体之外的 阅读全文
posted @ 2022-11-26 02:38 lanthanume 阅读(20) 评论(0) 推荐(0) 编辑
摘要: 基于强化学习的多智能体系统合作伙伴选择 总结: 提出了一个合作伙伴选择模型,模型中的智能体先由单独的奖励目标函数用Q-learnng训练(环境为重复的囚徒困境,进行一定轮次),并且训练过程中的交互信息都会被呈现给其他智能体。基于该信息每个智能体在每一轮开始时挑选合作伙伴并一起参与该困境并从经验中学习 阅读全文
posted @ 2022-11-25 20:22 lanthanume 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 环境: Fishery:湖两岸有两个钓鱼人互相观察不到对方的动作,湖里有幼鱼和成熟鱼奖励分别为1和2,鱼游到对岸变成成熟鱼。合作方案即将幼鱼放给对岸,背叛即被诱惑吊幼鱼。 Pong Player's Dilemma(PPD):乒乓球比赛,赢者得一分,输者扣两分。合作行为即不进行比赛。 PPD升级版: 阅读全文
posted @ 2022-11-20 01:45 lanthanume 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 环境: 猎鹿博弈(即代理人要么选择有风险的合作政策,单独代理人选择会导致低收益;要么选择一个安全的合作政策,无论怎么样都会有安全收益)存在多个纳什均衡的环境 h > c >=m > g 创新点: 目标:最终收敛到狩猎均衡获得更高收益,而不是低收益的均衡 采用亲社会代理人机制,代理人考虑伙伴的奖励采取 阅读全文
posted @ 2022-11-18 16:29 lanthanume 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 背景及问题: 外部代理如何在观察学习智能体的基础上分配额外的奖惩促进学习者之间的合作。 创新及问题解决: 提出一条规则:通过考虑智能体预期的参数更新来自动学习创建正确的激励措施(等同于创建一种自适应社会奖惩机制) 证明了在某些环境下,措施在一定时间后关闭合作结果也是稳定的,而有些游戏则需要持续性的干 阅读全文
posted @ 2022-11-12 01:02 lanthanume 阅读(17) 评论(0) 推荐(0) 编辑
摘要: 背景及相关问题: 多代理的学习中,通过奖励代理对其他代理产生的影响,可以增进多代理在强化学习中的合作和沟通。之前在MARL环境中关于紧急通信的方式无法以分散的方式学习各种策略,而使代理能够通过深度神经网络学习其他代理状况的模型可以用离散的方式计算所有代理的影响力奖励。(强化学习的内在动机问题) 之前 阅读全文
posted @ 2022-11-11 18:18 lanthanume 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 背景及问题: 过去有关公共池资源占用的问题上通常采用非合作博弈论的抽象预测模型仅仅考虑个人利益,往往无法找到比较好的社会均衡结果,并且仅仅考虑了占用多少这个维度 现在的该类问题向空间和时间资源动态扩展,非合作博弈论不再适用该种问题 创新及问题的解决: 论文采用深度强化学习的方法替代了原有的非合作博弈 阅读全文
posted @ 2022-11-11 17:02 lanthanume 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 背景: 多个智能体在环境中交互时(主要是模仿人类的团队行为例如篮球比赛等,只有通过合作才能够达到一定的目的),通常是需要合作从而实现最终目标,即达到最佳总收益。一般来说,实现上述目标的方法是组建一个团队并且需要制定一定的团队规则并实施,才能保证团队的运行,最重要的是要考虑到其中某些智能体的背叛行为导 阅读全文
posted @ 2022-11-04 11:49 lanthanume 阅读(38) 评论(0) 推荐(0) 编辑