随笔分类 -  0060.强化学习原理源码解读

You should in general look for simple implementations of dqn and ppo to learn from. Pytorch code is much easier to read for RL because it’s easy to run the environment simulation on cpu and the agent training on gpu. For classes, I recommend David Silver’s UCL class on deep reinforcement learning. He’s very good at explaining the fundamentals. https://github.com/seungeunrho/minimalRL
摘要:目录 A3C原理 源码实现 参考资料 针对A2C的训练慢的问题,DeepMind团队于2016年提出了多进程版本的A2C,即A3C。 A3C原理 同时开多个worker,最后会把所有的经验集合在一起 一开始有一个全局的网络,假设参数是θ1 每一个worker使用一个cpu去跑,工作之前就把全局的参数 阅读全文
posted @ 2020-10-01 22:23 黎明程序员 阅读(1030) 评论(0) 推荐(0)
摘要:目录 Policy-based框架的缺点 Valued-based框架的缺点 Actor-Critic结合 算法流程 向Policy Gradient中加入baseline Q网络和V网络的定义 A2C (Advantage Actor-Critic) A2C损失函数的构建 源码实现 参考资料 在强 阅读全文
posted @ 2020-10-01 17:30 黎明程序员 阅读(4026) 评论(1) 推荐(0)
摘要:目录 Policy based方法 vs Value based方法 策略网络 算法总体流程 如何通过对回归任务的优化来更新Q网络 为什么不可以同时更新Q网络和目标网络 为什么要使用带有探索策略的Q函数 探索策略的数学表达 ReplayBuffer的作用 Q值被高估的问题 源码实现 参考资料 DQN 阅读全文
posted @ 2020-09-30 15:00 黎明程序员 阅读(1314) 评论(0) 推荐(1)
摘要:目录 强化学习中的关键概念 游戏案例 策略网络 策略网络的训练 源码实现 效果演示 参考资料 本文不再维护,请移步最新博客: https://zhuanlan.zhihu.com/p/408239932 强化学习中的关键概念 智能体(Agent):也就是我们的机器人,它内部有一个策略网络,策略网络接 阅读全文
posted @ 2020-09-26 16:52 黎明程序员 阅读(1065) 评论(0) 推荐(0)