随笔档案「2018年7月」 - JinyuBlog

【RL系列】On-Policy与Off-Policy

摘要：强化学习大致上可分为两类，一类是Markov Decision Learning，另一类是与之相对的Model Free Learning 分为这两类是站在问题描述的角度上考虑的。同样在解决方案上存在着两种方法对应着这两类问题描述，即Dynamic Programming(DP)和Stochasti 阅读全文

posted @ 2018-07-27 11:15 JinyuBlog 阅读(3031) 评论(0) 推荐(0)

【RL系列】从蒙特卡罗方法步入真正的强化学习

摘要：蒙特卡罗方法给我的感觉是和Reinforcement Learning: An Introduction的第二章中Bandit问题的解法比较相似，两者皆是通过大量的实验然后估计每个状态动作的平均收益。不过两者的区别也是显而易见，Bandit问题比较简单，状态1->动作1->状态1，这个状态转移过程始阅读全文

posted @ 2018-07-23 22:54 JinyuBlog 阅读(584) 评论(0) 推荐(0)

【RL系列】蒙特卡罗方法——Soap Bubble

摘要：“肥皂泡”问题来源于Reinforcement Learning: An Introduction(2017). Exercise 5.2，大致的描述如下：用一个铁丝首尾相连组成闭合曲线，浸入肥皂泡液，拿起后，可以发现肥皂泡液以这个闭合曲线为边界形成了一个曲面。如何将这个曲面描述出来，便是肥皂泡问阅读全文

posted @ 2018-07-21 12:27 JinyuBlog 阅读(1299) 评论(0) 推荐(0)

【RL系列】马尔可夫决策过程——Gambler's Problem

摘要：Gambler's Problem，即“赌徒问题”，是一个经典的动态编程里值迭代应用的问题。在一个掷硬币游戏中，赌徒先下注，如果硬币为正面，赌徒赢回双倍，若是反面，则输掉赌注。赌徒给自己定了一个目标，本金赢到100块或是输光就结束游戏。找到一个关于本金与赌注之间关系的策略使得赌徒最快赢到100块。阅读全文

posted @ 2018-07-18 23:13 JinyuBlog 阅读(1507) 评论(0) 推荐(0)

【RL系列】马尔可夫决策过程——Jack‘s Car Rental

摘要：本篇请结合课本Reinforcement Learning: An Introduction学习 Jack's Car Rental是一个经典的应用马尔可夫决策过程的问题，翻译过来，我们就直接叫它“租车问题”吧。租车问题的描述如下： Jack’s Car Rental Jack manages tw 阅读全文

posted @ 2018-07-16 19:31 JinyuBlog 阅读(3148) 评论(0) 推荐(0)

【RL系列】马尔可夫决策过程——状态价值评价与动作价值评价

摘要：请先阅读上两篇文章：【RL系列】马尔可夫决策过程中状态价值函数的一般形式【RL系列】马尔可夫决策过程与动态编程状态价值函数，顾名思义，就是用于状态价值评价（SVE）的。典型的问题有“格子世界（GridWorld）”游戏（什么是格子世界？可以参考：Dynamic programming in P 阅读全文

posted @ 2018-07-13 20:24 JinyuBlog 阅读(1411) 评论(0) 推荐(0)

【RL系列】马尔可夫决策过程中状态价值函数的一般形式

摘要：请先阅读上一篇文章：【RL系列】马尔可夫决策过程与动态编程在上一篇文章里，主要讨论了马尔可夫决策过程模型的来源和基本思想，并以MAB问题为例简单的介绍了动态编程的基本方法。虽然上一篇文章中的马尔可夫决策过程模型实现起来比较简单，但我认为其存在两个小问题：数学表达上不够简洁状态价值评价型问题与动阅读全文

posted @ 2018-07-12 15:50 JinyuBlog 阅读(1836) 评论(0) 推荐(1)

【测试用】数学公式

摘要：$\gamma$ $$ \alpha = \sum_{i = 1}^{N} \left(M_{i} + \frac{x_i}{p} \right) $$ 阅读全文

posted @ 2018-07-11 13:45 JinyuBlog 阅读(225) 评论(0) 推荐(0)

【RL系列】MDP与DP问题

摘要：推荐阅读顺序： Reinforcement Learning: An Introduction (Drfit) 有限马尔可夫决策过程动态编程笔记 Dynamic programming in Python 本篇马尔可夫决策过程马尔可夫决策（MDP）过程为强化学习（RL）提供了理论基础，而动态编阅读全文

posted @ 2018-07-11 13:25 JinyuBlog 阅读(5342) 评论(0) 推荐(1)

【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略

摘要：本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法，涉及理论部分较少，所以请先阅读Reinforcement Learning: An Introduction (Drfit) 的2.7，2.8的内容。为了更深入一点了解UCB策略，可以随后阅阅读全文

posted @ 2018-07-04 10:21 JinyuBlog 阅读(2265) 评论(0) 推荐(0)

【RL系列】Multi-Armed Bandit笔记补充（二）

摘要：本篇的主题是对Upper Conference Bound(UCB)策略进行一个理论上的解释补充，主要探讨UCB方法的由来与相关公式的推导。 UCB是一种动作选择策略，主要用来解决epsilon-greedy在选择时的低效率问题。对于解释UCB的使用机理上，我认为下面这篇文章写的还不错，深入浅出，只阅读全文

posted @ 2018-07-02 20:35 JinyuBlog 阅读(542) 评论(0) 推荐(0)

【RL系列】Multi-Armed Bandit笔记补充（一）

摘要：在此之前，请先阅读上一篇文章：【RL系列】Multi-Armed Bandit笔记本篇的主题就如标题所示，只是上一篇文章的补充，主要关注两道来自于Reinforcement Learning: An Introduction 的课后习题。第一题为Exercise 2.5 (programming 阅读全文

posted @ 2018-07-02 14:07 JinyuBlog 阅读(512) 评论(0) 推荐(0)

JinyuBlog

07 2018 档案

公告