强化学习（十三）-A3C

一、概念

1、异步优势演员评论家算法（Asynchronous Advanced Actor Critic，A3C），解决Actor Critic很难收敛的问题，加速强化学习

2、创建多个并行环境，并行计算，然后合并学习到的结果，避免了经验回放相关性太强的问题

3、使用python多线程，提供了通用的异步并发强化学习框架，可以用于其他强化学习算法

二、改进

1、异步训练框架：n个线程，会使用自己的梯度，去更新公共神经网络的模型参数

2、网络结构优化

3、Critic评估点优化：使用优势函数来做评估点

三、路径衍生策略梯度

参考

https://datawhalechina.github.io/easy-rl/#/

posted @ 2025-08-26 13:42 牧云文仔阅读(32) 评论(0) 收藏举报

刷新页面返回顶部

牧云文仔