强化学习(十三)-A3C

一、概念

1、异步优势演员评论家算法(Asynchronous Advanced Actor Critic,A3C),解决Actor Critic很难收敛的问题,加速强化学习

2、创建多个并行环境,并行计算,然后合并学习到的结果,避免了经验回放相关性太强的问题

3、使用python多线程,提供了通用的异步并发强化学习框架,可以用于其他强化学习算法

 

二、改进

1、异步训练框架:n个线程,会使用自己的梯度,去更新公共神经网络的模型参数

image

2、网络结构优化

image

3、Critic评估点优化:使用优势函数来做评估点

 

三、路径衍生策略梯度

 

 

 

 

参考

https://datawhalechina.github.io/easy-rl/#/

 

posted @ 2025-08-26 13:42  牧云文仔  阅读(19)  评论(0)    收藏  举报