2020 年 9月 6 日随笔档案 - jsfantasy

2020年9月6日

强化学习 9 —— DQN 改进算法DDQN、Dueling DQN tensorflow 2.0 实现

摘要：上篇文章强化学习——详解 DQN 算法我们介绍了 DQN 算法，但是 DQN 还存在一些问题，本篇文章介绍针对 DQN 的问题的改进算法一、Double DQN 算法 1、算法介绍 DQN的问题有：目标 Q 值（Q Target ）计算是否准确？全部通过 \(max\;Q\) 来计算有没有问题？很阅读全文

posted @ 2020-09-06 20:59 jsfantasy 阅读(1922) 评论(0) 推荐(1) 编辑

强化学习 8 —— DQN 算法 Tensorflow 2.0 实现

摘要：在上一篇文章强化学习——DQN介绍中我们详细介绍了DQN 的来源，以及对于强化学习难以收敛的问题DQN算法提出的两个处理方法：经验回放和固定目标值。这篇文章我们就用代码来实现 DQN 算法一、环境介绍 1、Gym 介绍本算法以及以后文章要介绍的算法都会使用由 \(OpenAI\) 推出的\( 阅读全文

posted @ 2020-09-06 20:58 jsfantasy 阅读(2849) 评论(0) 推荐(0) 编辑

强化学习 7——Deep Q-Learning（DQN）公式推导

摘要：上篇文章强化学习——状态价值函数逼近介绍了价值函数逼近（Value Function Approximation，VFA）的理论，本篇文章介绍大名鼎鼎的DQN算法。DQN算法是 DeepMind 团队在2015年提出的算法，对于强化学习训练苦难问题，其开创性的提出了两个解决办法，在atari游戏上都阅读全文

posted @ 2020-09-06 20:56 jsfantasy 阅读(6492) 评论(0) 推荐(0) 编辑

强化学习 6 ——价值函数逼近

摘要：上篇文章强化学习——时序差分 (TD) 控制算法 Sarsa 和 Q-Learning我们主要介绍了 Sarsa 和 Q-Learning 两种时序差分控制算法，在这两种算法内部都要维护一张 Q 表格，对于小型的强化学习问题是非常灵活高效的。但是在状态和可选动作非常多的问题中，这张Q表格就变得异常巨阅读全文

posted @ 2020-09-06 20:54 jsfantasy 阅读(1135) 评论(0) 推荐(0) 编辑

jsfantasy

公告