《Consequentialist Conditional Cooperation in Social Dilemmas with Imperfect Information (Short Workshop Version)》2018-ICLR

环境：

Fishery：湖两岸有两个钓鱼人互相观察不到对方的动作，湖里有幼鱼和成熟鱼奖励分别为1和2，鱼游到对岸变成成熟鱼。合作方案即将幼鱼放给对岸，背叛即被诱惑吊幼鱼。
Pong Player's Dilemma(PPD)：乒乓球比赛，赢者得一分，输者扣两分。合作行为即不进行比赛。
PPD升级版：输者以概率p失去2/p分
游戏都是假设成可遍历的，并且部分可观察环境

创新点：

根据过去的奖励调节代理动作构建策略(结果条件依赖的社会困境)
使用深度强化学习，卷积神经网络，输入状态输出动作概率分布，下面是两个代理情况下的模型定义：
- 输入观察到的状态输出动作概率分布
- 代理的期望收益，给定初始状态和策略对
- 最优策略定义：
- 根据初始状态使用策略梯度方法学习出两种策略，一种是πc代表合作策略(这边采用了类似Prosocial训练方法，考虑其他人奖励)，一种πD代表背叛策略即自私的，只考虑自身奖励
- 计算每个批次的奖励阈值
  
  高于阈值选择合作策略，低于阈值选择背叛策略，RCC代表合作收益而RCD代表一个合作者一个背叛者收益即策略的不同，k代表迭代次数，t代表时间帧
- 算法伪代码：

posted @ 2022-11-20 01:45 lanthanume 阅读(48) 评论(0) 收藏举报

刷新页面返回顶部