强化学习(二十一)-多智能体强化学习概述

一、环境是否稳态

1、单智能体强化学习的环境是稳态的,即状态迁移是随机的,随机分布是不变的

2、多智能体强化学习,环境中包含有不断学习和更新的其他智能体,环境是非稳态的,环境迁移的分布会变化

3、多智能体强化学习如果使用单智能体的算法,经常不收敛

4、不但要跟环境交互,还要跟其他智能体交互

 

二、序贯策略

1、马尔可夫决策过程:一个智能体+多个状态

2、重复博弈:多个智能体+一个状态

3、随机博弈(马尔科夫博弈):多个智能体+多个状态

4、随机博弈元组(N,S,A,R,p,γ)

N为智能体数目

S为所有智能体的状态集合

A=A1*A2*....*An,是所有智能体的动作集合

R=r1*r2*...rn,是所有智能体的奖励函数集合

p:环境转移概率

γ:衰减因子

 

三、完全中心化方法

1、概念:把多个智能体进行决策,当作一个超级智能体在做决策,所有智能体的状态聚合在一起当作超级状态,所有智能体的动作连起来作为一个联合动作

优点:环境是稳态

缺点:复杂度高

2、方法1:整体智能体

每次在具体的状态s下,直接选择联合动作a,以每个智能体获得的奖励之和,作为该整体智能体的奖励,适用于合作任务

缺点:因为动作空间太大,状态转移和奖励函数的复杂度太高,需要极大的数据和算力;无法处理非合作的任务,例如对抗任务

3、方法2:纳什Q Learning

缺点:计算复杂度非常高,无法处理非合作的博弈场景

 

四、完全去中心化方法

1、假设每个智能体都在自身环境中独立学习,不考虑其他智能体的改变,使用单智能体强化学习方法

优点:简单好实现

缺点:环境非稳态,很可能不收敛

2、算法:独立Q learning,独立PPO

 

五、中心化训练+去中心化执行(CTDE)

1、训练时,使用一些单个智能体看不到的全局信息,从而达到更好的训练效果;而在执行时,不使用这些全局信息,每个智能体根据自己的策略直接行动

2、算法:MADDPG

 

posted @ 2025-09-28 15:09  牧云文仔  阅读(20)  评论(0)    收藏  举报