强化学习(二十一)-多智能体强化学习概述
一、环境是否稳态
1、单智能体强化学习的环境是稳态的,即状态迁移是随机的,随机分布是不变的
2、多智能体强化学习,环境中包含有不断学习和更新的其他智能体,环境是非稳态的,环境迁移的分布会变化
3、多智能体强化学习如果使用单智能体的算法,经常不收敛
4、不但要跟环境交互,还要跟其他智能体交互
二、序贯策略
1、马尔可夫决策过程:一个智能体+多个状态
2、重复博弈:多个智能体+一个状态
3、随机博弈(马尔科夫博弈):多个智能体+多个状态
4、随机博弈元组(N,S,A,R,p,γ)
N为智能体数目
S为所有智能体的状态集合
A=A1*A2*....*An,是所有智能体的动作集合
R=r1*r2*...rn,是所有智能体的奖励函数集合
p:环境转移概率
γ:衰减因子
三、完全中心化方法
1、概念:把多个智能体进行决策,当作一个超级智能体在做决策,所有智能体的状态聚合在一起当作超级状态,所有智能体的动作连起来作为一个联合动作
优点:环境是稳态
缺点:复杂度高
2、方法1:整体智能体
每次在具体的状态s下,直接选择联合动作a,以每个智能体获得的奖励之和,作为该整体智能体的奖励,适用于合作任务
缺点:因为动作空间太大,状态转移和奖励函数的复杂度太高,需要极大的数据和算力;无法处理非合作的任务,例如对抗任务
3、方法2:纳什Q Learning
缺点:计算复杂度非常高,无法处理非合作的博弈场景
四、完全去中心化方法
1、假设每个智能体都在自身环境中独立学习,不考虑其他智能体的改变,使用单智能体强化学习方法
优点:简单好实现
缺点:环境非稳态,很可能不收敛
2、算法:独立Q learning,独立PPO
五、中心化训练+去中心化执行(CTDE)
1、训练时,使用一些单个智能体看不到的全局信息,从而达到更好的训练效果;而在执行时,不使用这些全局信息,每个智能体根据自己的策略直接行动
2、算法:MADDPG