摘要: 上篇文章强化学习——详解 DQN 算法我们介绍了 DQN 算法,但是 DQN 还存在一些问题,本篇文章介绍针对 DQN 的问题的改进算法 一、Double DQN 算法 1、算法介绍 DQN的问题有:目标 Q 值(Q Target )计算是否准确?全部通过 \(max\;Q\) 来计算有没有问题?很 阅读全文
posted @ 2020-09-06 20:59 jsfantasy 阅读(1922) 评论(0) 推荐(1) 编辑
摘要: 在上一篇文章强化学习——DQN介绍 中我们详细介绍了DQN 的来源,以及对于强化学习难以收敛的问题DQN算法提出的两个处理方法:经验回放和固定目标值。这篇文章我们就用代码来实现 DQN 算法 一、环境介绍 1、Gym 介绍 本算法以及以后文章要介绍的算法都会使用 由 \(OpenAI\) 推出的\( 阅读全文
posted @ 2020-09-06 20:58 jsfantasy 阅读(2849) 评论(0) 推荐(0) 编辑
摘要: 上篇文章强化学习——状态价值函数逼近介绍了价值函数逼近(Value Function Approximation,VFA)的理论,本篇文章介绍大名鼎鼎的DQN算法。DQN算法是 DeepMind 团队在2015年提出的算法,对于强化学习训练苦难问题,其开创性的提出了两个解决办法,在atari游戏上都 阅读全文
posted @ 2020-09-06 20:56 jsfantasy 阅读(6492) 评论(0) 推荐(0) 编辑
摘要: 上篇文章强化学习——时序差分 (TD) 控制算法 Sarsa 和 Q-Learning我们主要介绍了 Sarsa 和 Q-Learning 两种时序差分控制算法,在这两种算法内部都要维护一张 Q 表格,对于小型的强化学习问题是非常灵活高效的。但是在状态和可选动作非常多的问题中,这张Q表格就变得异常巨 阅读全文
posted @ 2020-09-06 20:54 jsfantasy 阅读(1135) 评论(0) 推荐(0) 编辑