摘要: 基于强化学习的多智能体系统合作伙伴选择 总结: 提出了一个合作伙伴选择模型,模型中的智能体先由单独的奖励目标函数用Q-learnng训练(环境为重复的囚徒困境,进行一定轮次),并且训练过程中的交互信息都会被呈现给其他智能体。基于该信息每个智能体在每一轮开始时挑选合作伙伴并一起参与该困境并从经验中学习 阅读全文
posted @ 2022-11-25 20:22 lanthanume 阅读(23) 评论(0) 推荐(0) 编辑