2020 年 10月 1 日随笔档案 - 黎明程序员

2020年10月1日

强化学习原理源码解读004：A3C (Asynchronous Advantage Actor-Critic)

摘要：目录 A3C原理源码实现参考资料针对A2C的训练慢的问题，DeepMind团队于2016年提出了多进程版本的A2C，即A3C。 A3C原理同时开多个worker，最后会把所有的经验集合在一起一开始有一个全局的网络，假设参数是θ1 每一个worker使用一个cpu去跑，工作之前就把全局的参数阅读全文

posted @ 2020-10-01 22:23 黎明程序员阅读(887) 评论(0) 推荐(0) 编辑

强化学习原理源码解读003：Actor-Critic和A2C

摘要：目录 Policy-based框架的缺点 Valued-based框架的缺点 Actor-Critic结合算法流程向Policy Gradient中加入baseline Q网络和V网络的定义 A2C (Advantage Actor-Critic) A2C损失函数的构建源码实现参考资料在强阅读全文

posted @ 2020-10-01 17:30 黎明程序员阅读(3276) 评论(1) 推荐(0) 编辑

黎明程序员

公告