强化学习(十三)-A3C
一、概念
1、异步优势演员评论家算法(Asynchronous Advanced Actor Critic,A3C),解决Actor Critic很难收敛的问题,加速强化学习
2、创建多个并行环境,并行计算,然后合并学习到的结果,避免了经验回放相关性太强的问题
3、使用python多线程,提供了通用的异步并发强化学习框架,可以用于其他强化学习算法
二、改进
1、异步训练框架:n个线程,会使用自己的梯度,去更新公共神经网络的模型参数
2、网络结构优化
3、Critic评估点优化:使用优势函数来做评估点
三、路径衍生策略梯度
参考
https://datawhalechina.github.io/easy-rl/#/