02 2023 档案
摘要:基于策略相似度的零样本协调表现改进 总结: 这篇论文本质上是研究智能体的泛化性能,文中涉及的问题是在一个常规多智能体系统中的智能体如果要与新加入的或者说没有交互过的智能体一起训练的协调能力比较差,从而导致合作程度不够影响收益。文章针对这个问题先是研究了影响智能体协调能力的参数之后利用该参数采取特殊的
阅读全文
摘要:通过互相帮助促进多智能体强化学习中的合作 总结 该篇文章主要是提出了一个新的多智能体强化学习算法,目的是为了提高合作程度和总社会奖励。具体实现基于传统Actor-Critic模型,添加了一个预测动作模块让智能体基于预测其他智能体的动作来进行下一步动作,达到不损害自身利益的前提下有选择的互相帮助促进合
阅读全文
摘要:在复杂序贯社会困境中学习互惠 总结 这篇论文主要是提出了一个在线学习的模型展示如何在序贯困境中学习互惠行为,模型包括创新者和模仿者两种代理。 相比于传统的Tit-for-Tat的互惠模型,其优点在于不再是简单的模仿二元动作合作和背叛,可以扩展到多人困境中不局限与二人囚徒困境 实验环境 Harvest
阅读全文
摘要:致力于序贯囚徒困境中的合作:一种多智能体深度强化学习的方法 总结 主要是针对复杂的序贯囚徒困境的合作提出的方法,目的是为了提高合作程度最终达到提高社会总收益的。该方法主要包括两阶段,第一阶段是离线生成策略阶段,运用普通的强化学习算法先单独计算每个智能体的策略之后整合,其中智能体的策略不是简单的非合作
阅读全文

浙公网安备 33010602011771号