随笔列表第2页 - 刘建平Pinard

2019年2月1日

摘要：在强化学习(十五) A3C中，我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题，今天我们不使用多线程，而是使用和DDQN类似的方法：即经验回放和双网络的方法来改进Actor-Critic难收敛的问题，这个算法就是是深度确定性策略梯度(Deep Deterministic Poli 阅读全文

posted @ 2019-02-01 19:42 刘建平Pinard 阅读(118264) 评论(318) 推荐(24) 编辑

2019年1月29日

强化学习(十五) A3C

摘要：在强化学习(十四) Actor-Critic中，我们讨论了Actor-Critic的算法流程，但是由于普通的Actor-Critic算法难以收敛，需要一些其他的优化。而Asynchronous Advantage Actor-critic(以下简称A3C)就是其中比较好的优化算法。本文我们讨论A3C 阅读全文

posted @ 2019-01-29 18:09 刘建平Pinard 阅读(69495) 评论(144) 推荐(4) 编辑

2019年1月15日

强化学习(十四) Actor-Critic

摘要：在强化学习(十三) 策略梯度(Policy Gradient)中，我们讲到了基于策略(Policy Based)的强化学习方法的基本思路，并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列，同时单独对策略函数进行迭代更新，不太容易收敛。在本篇我们讨论策略(Policy 阅读全文

posted @ 2019-01-15 17:46 刘建平Pinard 阅读(110207) 评论(147) 推荐(9) 编辑

2018年12月18日

强化学习(十三) 策略梯度(Policy Gradient)

摘要：在前面讲到的DQN系列强化学习算法中，我们主要对价值函数进行了近似表示，基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用，但是Value Based强化学习方法也有很多局限性，因此在另一些场景下我们需要其他的方法，比如本篇讨论的策略梯度(Policy Gradien 阅读全文

posted @ 2018-12-18 18:04 刘建平Pinard 阅读(118018) 评论(176) 推荐(14) 编辑

2018年11月8日

强化学习(十二) Dueling DQN

摘要：在强化学习(十一) Prioritized Replay DQN中，我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法，本文讨论另一种优化方法，Dueling DQN。本章内容主要参考了ICML 2016的deep RL tutorial和Dueling DQN的论文<Dueling N 阅读全文

posted @ 2018-11-08 14:04 刘建平Pinard 阅读(56510) 评论(74) 推荐(5) 编辑

2018年10月16日

强化学习(十一) Prioritized Replay DQN

摘要：在强化学习（十）Double DQN (DDQN)中，我们讲到了DDQN使用两个Q网络，用当前Q网络计算最大Q值对应的动作，用目标Q网络计算这个最大动作对应的目标Q值，进而消除贪婪法带来的偏差。今天我们在DDQN的基础上，对经验回放部分的逻辑做优化。对应的算法是Prioritized Replay 阅读全文

posted @ 2018-10-16 16:46 刘建平Pinard 阅读(50759) 评论(153) 推荐(14) 编辑

2018年10月12日

强化学习（十）Double DQN (DDQN)

摘要：在强化学习（九）Deep Q-Learning进阶之Nature DQN中，我们讨论了Nature DQN的算法流程，它通过使用两个相同的神经网络，以解决数据样本和网络训练之前的相关性。但是还是有其他值得优化的点，文本就关注于Nature DQN的一个改进版本: Double DQN算法（以下简称D 阅读全文

posted @ 2018-10-12 16:52 刘建平Pinard 阅读(104879) 评论(77) 推荐(8) 编辑

2018年10月8日

强化学习（九）Deep Q-Learning进阶之Nature DQN

摘要：在强化学习（八）价值函数的近似表示与Deep Q-Learning中，我们讲到了Deep Q-Learning（NIPS 2013）的算法和代码，在这个算法基础上，有很多Deep Q-Learning(以下简称DQN)的改进版，今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 201 阅读全文

posted @ 2018-10-08 20:40 刘建平Pinard 阅读(67453) 评论(84) 推荐(11) 编辑

2018年9月28日

强化学习（八）价值函数的近似表示与Deep Q-Learning

摘要：在强化学习系列的前七篇里，我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q-Learning算法。 Deep Q-Learning这一篇对应Sutton书的第11章部分和UCL强化学习课程的第六讲。 1. 为何需要价值函数阅读全文

posted @ 2018-09-28 16:49 刘建平Pinard 阅读(86882) 评论(203) 推荐(13) 编辑

2018年9月19日

强化学习（七）时序差分离线控制算法Q-Learning

摘要：在强化学习（六）时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA，而另一类时序差分的离线控制算法还没有讨论，因此本文我们关注于时序差分离线控制算法，主要是经典的Q-Learning算法。 Q-Learning这一篇对应Sutton书的第六章部分和UCL强化学习课程的第五讲部阅读全文

posted @ 2018-09-19 19:32 刘建平Pinard 阅读(59484) 评论(109) 推荐(15) 编辑

刘建平Pinard

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

公告