jsfantasy

2020年9月6日

强化学习 9 —— DQN 改进算法DDQN、Dueling DQN tensorflow 2.0 实现

摘要：上篇文章强化学习——详解 DQN 算法我们介绍了 DQN 算法，但是 DQN 还存在一些问题，本篇文章介绍针对 DQN 的问题的改进算法一、Double DQN 算法 1、算法介绍 DQN的问题有：目标 Q 值（Q Target ）计算是否准确？全部通过 \(max\;Q\) 来计算有没有问题？很阅读全文

posted @ 2020-09-06 20:59 jsfantasy 阅读(2427) 评论(0) 推荐(1)

强化学习 8 —— DQN 算法 Tensorflow 2.0 实现

摘要：在上一篇文章强化学习——DQN介绍中我们详细介绍了DQN 的来源，以及对于强化学习难以收敛的问题DQN算法提出的两个处理方法：经验回放和固定目标值。这篇文章我们就用代码来实现 DQN 算法一、环境介绍 1、Gym 介绍本算法以及以后文章要介绍的算法都会使用由 \(OpenAI\) 推出的\( 阅读全文

posted @ 2020-09-06 20:58 jsfantasy 阅读(3297) 评论(0) 推荐(0)

强化学习 7——Deep Q-Learning（DQN）公式推导

摘要：上篇文章强化学习——状态价值函数逼近介绍了价值函数逼近（Value Function Approximation，VFA）的理论，本篇文章介绍大名鼎鼎的DQN算法。DQN算法是 DeepMind 团队在2015年提出的算法，对于强化学习训练苦难问题，其开创性的提出了两个解决办法，在atari游戏上都阅读全文

posted @ 2020-09-06 20:56 jsfantasy 阅读(8554) 评论(0) 推荐(0)

强化学习 6 ——价值函数逼近

摘要：上篇文章强化学习——时序差分 (TD) 控制算法 Sarsa 和 Q-Learning我们主要介绍了 Sarsa 和 Q-Learning 两种时序差分控制算法，在这两种算法内部都要维护一张 Q 表格，对于小型的强化学习问题是非常灵活高效的。但是在状态和可选动作非常多的问题中，这张Q表格就变得异常巨阅读全文

posted @ 2020-09-06 20:54 jsfantasy 阅读(1423) 评论(0) 推荐(0)

2020年8月10日

强化学习 5 —— SARSA 和 Q-Learning算法代码实现

摘要：上篇文章强化学习——时序差分 (TD) SARSA and Q-Learning 我们介绍了时序差分TD算法解决强化学习的评估和控制问题，TD对比MC有很多优势，比如TD有更低方差，可以学习不完整的序列。所以我们可以在策略控制循环中使用TD来代替MC。优于TD算法的诸多优点，因此现在主流的强化学习阅读全文

posted @ 2020-08-10 15:34 jsfantasy 阅读(2773) 评论(1) 推荐(2)

强化学习 4 —— 时序差分法（TD）解决无模型预测与控制问题

摘要：在上篇文章强化学习——蒙特卡洛 (MC) 采样法的预测与控制中我们讨论了 Model Free 情况下的策略评估问题，主要介绍了蒙特卡洛（MC）采样法的预测与控制问题，这次我们介绍另外一种方法——时序差分法（TD）一、时序差分采样法（TD）对于MC采样法，如果我们没有完整的状态序列，那么就无法使阅读全文

posted @ 2020-08-10 15:32 jsfantasy 阅读(2269) 评论(0) 推荐(1)

强化学习 3—— 使用蒙特卡洛采样法（MC）解决无模型预测与控制问题

摘要：一、问题引入回顾上篇强化学习 2 —— 用动态规划求解 MDP我们使用策略迭代和价值迭代来求解MDP问题 1、策略迭代过程： 1、评估价值 (Evaluate) \[ v_{i}(s) = \sum_{a\in A} \pi(a|s) \left( {\color{red}R(s, a)} + \ 阅读全文

posted @ 2020-08-10 15:29 jsfantasy 阅读(2130) 评论(0) 推荐(2)

强化学习 2—— 用动态规划求解 MDP (Policy Iteration and Value Iteration)

摘要：在上一篇文章强化学习 1 —— 一文读懂马尔科夫决策过程 MDP 介绍了马尔科夫过程，本篇接着来介绍如何使用动态规划方法来求解。动态规划的关键点有两个：一是问题的最优解可以由若干小问题的最优解构成，即通过寻找子问题的最优解来得到问题的最优解。二是可以找到子问题状态之间的递推关系，通过较小的子阅读全文

posted @ 2020-08-10 15:26 jsfantasy 阅读(3042) 评论(0) 推荐(1)

2020年6月6日

强化学习 1 --- 马尔科夫决策过程详解（MDP）

摘要：强化学习马尔科夫决策过程（MDP） 1、强化学习介绍强化学习任务通常使用马尔可夫决策过程（Markov Decision Process，简称MDP）来描述，具体而言：机器处在一个环境中，每个状态为机器对当前环境的感知；机器只能通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转阅读全文

posted @ 2020-06-06 16:43 jsfantasy 阅读(12135) 评论(1) 推荐(5)

卷积生成对抗网络（DCGAN）---生成手写数字

摘要：深度卷积生成对抗网络（DCGAN）生成 MNIST 手写图片 1、基本原理生成对抗网络（GAN）由2个重要的部分构成：生成器(Generator)：通过机器生成数据（大部分情况下是图像），目的是“骗过”判别器判别器(Discriminator)：判断这张图像是真实的还是机器生成的，目的是找出阅读全文

posted @ 2020-06-06 16:39 jsfantasy 阅读(3962) 评论(1) 推荐(1)

公告