随笔档案「2023年2月」 - lanthanume

Improving Zero-Shot Coordination Performance Based on Policy Similarity 2023-ICAPS

摘要：基于策略相似度的零样本协调表现改进总结：这篇论文本质上是研究智能体的泛化性能，文中涉及的问题是在一个常规多智能体系统中的智能体如果要与新加入的或者说没有交互过的智能体一起训练的协调能力比较差，从而导致合作程度不够影响收益。文章针对这个问题先是研究了影响智能体协调能力的参数之后利用该参数采取特殊的阅读全文

posted @ 2023-02-24 19:19 lanthanume 阅读(90) 评论(0) 推荐(0)

《PROMOTING COOPERATION IN MULTI-AGENT REINFORCEMENT LEARNING VIA MUTUAL HELP》 2023-IEEE

摘要：通过互相帮助促进多智能体强化学习中的合作总结该篇文章主要是提出了一个新的多智能体强化学习算法，目的是为了提高合作程度和总社会奖励。具体实现基于传统Actor-Critic模型，添加了一个预测动作模块让智能体基于预测其他智能体的动作来进行下一步动作，达到不损害自身利益的前提下有选择的互相帮助促进合阅读全文

posted @ 2023-02-23 21:11 lanthanume 阅读(191) 评论(0) 推荐(0)

《Learning Reciprocity in Complex Sequential Social Dilemmas》 2019-arxiv(未收录)

摘要：在复杂序贯社会困境中学习互惠总结这篇论文主要是提出了一个在线学习的模型展示如何在序贯困境中学习互惠行为，模型包括创新者和模仿者两种代理。相比于传统的Tit-for-Tat的互惠模型，其优点在于不再是简单的模仿二元动作合作和背叛，可以扩展到多人困境中不局限与二人囚徒困境实验环境 Harvest 阅读全文

posted @ 2023-02-11 09:01 lanthanume 阅读(54) 评论(0) 推荐(0)

《Towards Cooperation in Sequential Prisoner’s Dilemmas: a Deep Multiagent Reinforcement Learning Approach》 2018-arxiv(未收录)

摘要：致力于序贯囚徒困境中的合作：一种多智能体深度强化学习的方法总结主要是针对复杂的序贯囚徒困境的合作提出的方法，目的是为了提高合作程度最终达到提高社会总收益的。该方法主要包括两阶段，第一阶段是离线生成策略阶段，运用普通的强化学习算法先单独计算每个智能体的策略之后整合，其中智能体的策略不是简单的非合作阅读全文

posted @ 2023-02-10 18:57 lanthanume 阅读(67) 评论(0) 推荐(0)

lanthanume

02 2023 档案

公告