强化学习(二十二)-MADDPG

一、概念

1、MADDPG(Multi-Agent Deep Deterministic Policy Gradient)是一种基于单智能体的DDPG算法扩展,解决多智能体交互场景下的训练不稳定性、环境非平稳性问题,于2017年提出

2、适用于合作、竞争或者混合互动的多智能体任务,例如机器人协作、多智能体游戏、自动驾驶调度

3、“多智能体+连续动作”场景的基础算法

 

二、算法核心思想

1、集中式训练+分布式执行(Decentralized Execution, Centralized Training, DECT)

2、每个智能体是一个Actor-Critic,Actor输出动作,Critic评估动作的价值

3、Critic是全局的,不仅依赖于单个智能体的状态和动作,还使用所有智能体的状态和动作

 

三、完整网络架构

1、智能体的Current Actor,有N个,实时生成动作,于环境交互和训练

2、智能体的Target Actor,有N个,计算目标Q值,避免训练波动

3、中心化的Current Critic,有1个,评估当前动作组合的价值,为所有Actor更新梯度

4、中心化的Target Critic,有1个,计算TD error,更新Critic网络

5、经验回放池Replay Buffer,有1个,存储多智能体的联合经验,随机采样,打破数据相关性

 

四、训练过程(交互-存储-采样-更新)

1、初始化网络、经验池

2、多智能体与环境交互,收集经验

3、采样,更新网络,进行训练

4、终止训练

 

五、优缺点

1、优点

适配连续动作空间

解决环境非平稳性

去中心化部署:执行时无需中心节点,各个智能体独立决策,降低通信依赖

2、缺点

训练阶段计算成本高:智能体数量太多,则状态/动作空间维度爆炸

奖励设计敏感:如果奖励设计不合理,则训练效率很低

缺乏泛化性:3个智能体到5个智能体,难以迁移,需要重新训练

 

六、代码

参考:https://www.bilibili.com/video/BV1Yv421r7TM

 

posted @ 2025-09-30 18:06  牧云文仔  阅读(22)  评论(0)    收藏  举报