随笔分类 -  文献阅读总结

摘要:基于策略相似度的零样本协调表现改进 总结: 这篇论文本质上是研究智能体的泛化性能,文中涉及的问题是在一个常规多智能体系统中的智能体如果要与新加入的或者说没有交互过的智能体一起训练的协调能力比较差,从而导致合作程度不够影响收益。文章针对这个问题先是研究了影响智能体协调能力的参数之后利用该参数采取特殊的 阅读全文
posted @ 2023-02-24 19:19 lanthanume 阅读(90) 评论(0) 推荐(0)
摘要:通过互相帮助促进多智能体强化学习中的合作 总结 该篇文章主要是提出了一个新的多智能体强化学习算法,目的是为了提高合作程度和总社会奖励。具体实现基于传统Actor-Critic模型,添加了一个预测动作模块让智能体基于预测其他智能体的动作来进行下一步动作,达到不损害自身利益的前提下有选择的互相帮助促进合 阅读全文
posted @ 2023-02-23 21:11 lanthanume 阅读(191) 评论(0) 推荐(0)
摘要:在复杂序贯社会困境中学习互惠 总结 这篇论文主要是提出了一个在线学习的模型展示如何在序贯困境中学习互惠行为,模型包括创新者和模仿者两种代理。 相比于传统的Tit-for-Tat的互惠模型,其优点在于不再是简单的模仿二元动作合作和背叛,可以扩展到多人困境中不局限与二人囚徒困境 实验环境 Harvest 阅读全文
posted @ 2023-02-11 09:01 lanthanume 阅读(54) 评论(0) 推荐(0)
摘要:致力于序贯囚徒困境中的合作:一种多智能体深度强化学习的方法 总结 主要是针对复杂的序贯囚徒困境的合作提出的方法,目的是为了提高合作程度最终达到提高社会总收益的。该方法主要包括两阶段,第一阶段是离线生成策略阶段,运用普通的强化学习算法先单独计算每个智能体的策略之后整合,其中智能体的策略不是简单的非合作 阅读全文
posted @ 2023-02-10 18:57 lanthanume 阅读(67) 评论(0) 推荐(0)
摘要:奖励成分在多智能体学习中的重要性 总结: 探索智能体的奖励结构成分对多智能体系统合作程度和群体收益的影响,本质上是将智能体的奖励结构划分为个体奖励、团队奖励以及全局奖励三个部分,探索不同的比例对结果的影响。 环境: 重复囚徒困境 cleanup 具体实现: 奖励结构: 个体奖励,从环境获得 团队奖励 阅读全文
posted @ 2023-01-13 17:26 lanthanume 阅读(38) 评论(0) 推荐(0)
摘要:探索团队在多智能体学习中的收益 总结: 在传统的多智能体学习下提出创建团队模型的概念,研究在多智能体组中存在团队对促进合作和提高整体收益的影响。本质上是将一个多智能体系统划分为多个不直接竞争的团队并且不采用集中控制,为了使一个团队中的智能体具有共同利益,采用了特殊的智能体奖励处理。 环境: 重复囚徒 阅读全文
posted @ 2023-01-13 15:16 lanthanume 阅读(49) 评论(0) 推荐(0)
摘要:多智能体元梯度强化学习的自适应激励设计 总结: 提出了一种基于元梯度的多智能体强化学习自适应奖励机制,解决了较为复杂的多智能体强化学习下的奖励机制问题,最终证明该方法可以收敛至已知的全局最优解。 环境: Escape room、Cleanup 具体实现过程: 本质上是解决双层优化问题 在理想情况下一 阅读全文
posted @ 2023-01-06 23:52 lanthanume 阅读(148) 评论(0) 推荐(0)
摘要:量化多智能体强化学习中环境和种群多样性的影响 总结: 在多种实验环境下评估多智能体强化学习受到环境多样性以及智能体多样性的影响,主要是泛化能力 实验过程主要是通过改变训练智能体的数量和环境 环境: HavestPatch:具有特殊空间限制的Harvest,具有惩罚光束,将玩家短暂移出游戏 Traff 阅读全文
posted @ 2023-01-06 20:40 lanthanume 阅读(45) 评论(0) 推荐(0)
摘要:在序贯社会困境中学习同质性激励 总结: 由于在类似harvest这种困境中,带有惩罚功能的智能体惩罚他人会付出代价,由此可能引发第二层级的搭便车行为,即都不想进行惩罚动作付出小代价,那么最终困境将无法得到解决,最终导致合作行为地不稳定。为了解决上述问题,论文提出了利用同质性激励的方案,即具有相似行为 阅读全文
posted @ 2022-12-24 02:05 lanthanume 阅读(52) 评论(0) 推荐(0)
摘要:混合动机强化学习中的社会多样性与社会偏好 总结: 本质是在研究当智能体群体中的个体具有独特性质时在困境强化学习中对结果的影响。提出了一个社会价值偏向取向的概念来使得群体中的智能体异质之后进行对比实验,实质上还是对奖励函数的更改,但是奖励函数具有多种形式,不是具体的。 环境: Harvest Patc 阅读全文
posted @ 2022-12-23 20:32 lanthanume 阅读(51) 评论(0) 推荐(0)
摘要:从相互交换确认中产生合作 总结: 为了改进传统的激励其他代理人机制,其存在隐私侵犯的问题,文中提出一种两阶段的请求和回应机制,即即使想要激励其他人送出的东西还需要得到接收方的回馈,接收方通过一个判断函数决定是否接收,接收则回馈同等奖励,不接受则回馈等绝对值得负面奖励。通过这样一个通信机制解决信息暴露 阅读全文
posted @ 2022-12-10 22:57 lanthanume 阅读(59) 评论(0) 推荐(0)
摘要:学会激励其他学习智能体 总结: 为了促进在一般和马尔可夫游戏中的多智能体之间的合作,为每个智能体配置一个奖励函数用来直接向其他智能体提供奖励,并明确解释接受该奖励者自身行为会受到的影响。该奖励函数会根据提供的奖励对其他智能体的产生的影响以及后续其他智能体对自己获取的环境奖励的影响来不断学习。使用该机 阅读全文
posted @ 2022-12-10 17:54 lanthanume 阅读(74) 评论(0) 推荐(0)
摘要:学习解决多人零和博弈中的联盟困境 总结: 将两人的零和博弈扩展到多人零和博弈,并将多人零和博弈中的联盟问题转为社会困境问题用基于强化学习的方法进行解决。先是说明了一般的强化学习方法无法解决,由此在其基础上添加了一个契约机制使联盟问题得到解决。 环境: 多人零和博弈下的联盟困境:将除了两个智能体之外的 阅读全文
posted @ 2022-11-26 02:38 lanthanume 阅读(75) 评论(0) 推荐(0)
摘要:基于强化学习的多智能体系统合作伙伴选择 总结: 提出了一个合作伙伴选择模型,模型中的智能体先由单独的奖励目标函数用Q-learnng训练(环境为重复的囚徒困境,进行一定轮次),并且训练过程中的交互信息都会被呈现给其他智能体。基于该信息每个智能体在每一轮开始时挑选合作伙伴并一起参与该困境并从经验中学习 阅读全文
posted @ 2022-11-25 20:21 lanthanume 阅读(79) 评论(0) 推荐(0)
摘要:环境: Fishery:湖两岸有两个钓鱼人互相观察不到对方的动作,湖里有幼鱼和成熟鱼奖励分别为1和2,鱼游到对岸变成成熟鱼。合作方案即将幼鱼放给对岸,背叛即被诱惑吊幼鱼。 Pong Player's Dilemma(PPD):乒乓球比赛,赢者得一分,输者扣两分。合作行为即不进行比赛。 PPD升级版: 阅读全文
posted @ 2022-11-20 01:45 lanthanume 阅读(48) 评论(0) 推荐(0)
摘要:环境: 猎鹿博弈(即代理人要么选择有风险的合作政策,单独代理人选择会导致低收益;要么选择一个安全的合作政策,无论怎么样都会有安全收益)存在多个纳什均衡的环境 h > c >=m > g 创新点: 目标:最终收敛到狩猎均衡获得更高收益,而不是低收益的均衡 采用亲社会代理人机制,代理人考虑伙伴的奖励采取 阅读全文
posted @ 2022-11-18 16:29 lanthanume 阅读(53) 评论(0) 推荐(0)
摘要:背景及问题: 外部代理如何在观察学习智能体的基础上分配额外的奖惩促进学习者之间的合作。 创新及问题解决: 提出一条规则:通过考虑智能体预期的参数更新来自动学习创建正确的激励措施(等同于创建一种自适应社会奖惩机制) 证明了在某些环境下,措施在一定时间后关闭合作结果也是稳定的,而有些游戏则需要持续性的干 阅读全文
posted @ 2022-11-12 01:02 lanthanume 阅读(60) 评论(0) 推荐(0)
摘要:背景及相关问题: 多代理的学习中,通过奖励代理对其他代理产生的影响,可以增进多代理在强化学习中的合作和沟通。之前在MARL环境中关于紧急通信的方式无法以分散的方式学习各种策略,而使代理能够通过深度神经网络学习其他代理状况的模型可以用离散的方式计算所有代理的影响力奖励。(强化学习的内在动机问题) 之前 阅读全文
posted @ 2022-11-11 18:18 lanthanume 阅读(157) 评论(0) 推荐(0)
摘要:背景及问题: 过去有关公共池资源占用的问题上通常采用非合作博弈论的抽象预测模型仅仅考虑个人利益,往往无法找到比较好的社会均衡结果,并且仅仅考虑了占用多少这个维度 现在的该类问题向空间和时间资源动态扩展,非合作博弈论不再适用该种问题 创新及问题的解决: 论文采用深度强化学习的方法替代了原有的非合作博弈 阅读全文
posted @ 2022-11-11 17:02 lanthanume 阅读(105) 评论(0) 推荐(0)
摘要:背景: 多个智能体在环境中交互时(主要是模仿人类的团队行为例如篮球比赛等,只有通过合作才能够达到一定的目的),通常是需要合作从而实现最终目标,即达到最佳总收益。一般来说,实现上述目标的方法是组建一个团队并且需要制定一定的团队规则并实施,才能保证团队的运行,最重要的是要考虑到其中某些智能体的背叛行为导 阅读全文
posted @ 2022-11-04 11:48 lanthanume 阅读(65) 评论(0) 推荐(0)