强化学习（二十一）-多智能体强化学习概述

一、环境是否稳态

1、单智能体强化学习的环境是稳态的，即状态迁移是随机的，随机分布是不变的

2、多智能体强化学习，环境中包含有不断学习和更新的其他智能体，环境是非稳态的，环境迁移的分布会变化

3、多智能体强化学习如果使用单智能体的算法，经常不收敛

4、不但要跟环境交互，还要跟其他智能体交互

二、序贯策略

1、马尔可夫决策过程：一个智能体+多个状态

2、重复博弈：多个智能体+一个状态

3、随机博弈（马尔科夫博弈）：多个智能体+多个状态

4、随机博弈元组（N，S，A，R，p，γ）

N为智能体数目

S为所有智能体的状态集合

A=A1*A2*....*An，是所有智能体的动作集合

R=r1*r2*...rn，是所有智能体的奖励函数集合

p：环境转移概率

γ：衰减因子

三、完全中心化方法

1、概念：把多个智能体进行决策，当作一个超级智能体在做决策，所有智能体的状态聚合在一起当作超级状态，所有智能体的动作连起来作为一个联合动作

优点：环境是稳态

缺点：复杂度高

2、方法1：整体智能体

每次在具体的状态s下，直接选择联合动作a，以每个智能体获得的奖励之和，作为该整体智能体的奖励，适用于合作任务

缺点：因为动作空间太大，状态转移和奖励函数的复杂度太高，需要极大的数据和算力；无法处理非合作的任务，例如对抗任务

3、方法2：纳什Q Learning

缺点：计算复杂度非常高，无法处理非合作的博弈场景

四、完全去中心化方法

1、假设每个智能体都在自身环境中独立学习，不考虑其他智能体的改变，使用单智能体强化学习方法

优点：简单好实现

缺点：环境非稳态，很可能不收敛

2、算法：独立Q learning，独立PPO

五、中心化训练+去中心化执行（CTDE）

1、训练时，使用一些单个智能体看不到的全局信息，从而达到更好的训练效果；而在执行时，不使用这些全局信息，每个智能体根据自己的策略直接行动

2、算法：MADDPG

posted @ 2025-09-28 15:09 牧云文仔阅读(35) 评论(0) 收藏举报

刷新页面返回顶部

牧云文仔