摘要: Monte Carlo算法是否能够做到一步更新,即在线学习? 答案显然是不能,如果可以的话,TD算法还有何存在的意义?MC算法必须要等到episode结束后才可以进行值估计的主要原因在于对Return(或是估计目标)的定义与TD算法不同。强化学习中所估计的状态动作对价值实质上就是在某一策略下,以这个 阅读全文
posted @ 2019-04-15 14:37 JinyuBlog 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 对于了解机器学习中二元分类问题的来源与分析,我认为王树义老师这篇文章讲的非常好,通俗且易懂: http://blog.sciencenet.cn/blog-377709-1121098.html 但王树义老师的这篇文章并未详细的展开说明二元分类的具体实现方法,只是在宏观上的一个概述。在阅读这篇文章后 阅读全文
posted @ 2018-09-15 16:08 JinyuBlog 阅读(856) 评论(0) 推荐(0) 编辑
摘要: SARSA算法严格上来说,是TD(0)关于状态动作函数估计的on-policy形式,所以其基本架构与TD的$v_{\pi}$估计算法(on-policy)并无太大区别,所以这里就不再单独阐述之。本文主要通过两个简单例子来实际应用SARSA算法,并在过程中熟练并总结SARSA算法的流程与基本结构。 强 阅读全文
posted @ 2018-08-03 21:39 JinyuBlog 阅读(1458) 评论(0) 推荐(0) 编辑
摘要: 强化学习大致上可分为两类,一类是Markov Decision Learning,另一类是与之相对的Model Free Learning 分为这两类是站在问题描述的角度上考虑的。同样在解决方案上存在着两种方法对应着这两类问题描述,即Dynamic Programming(DP)和Stochasti 阅读全文
posted @ 2018-07-27 11:15 JinyuBlog 阅读(2574) 评论(0) 推荐(0) 编辑
摘要: 蒙特卡罗方法给我的感觉是和Reinforcement Learning: An Introduction的第二章中Bandit问题的解法比较相似,两者皆是通过大量的实验然后估计每个状态动作的平均收益。不过两者的区别也是显而易见,Bandit问题比较简单,状态1->动作1->状态1,这个状态转移过程始 阅读全文
posted @ 2018-07-23 22:54 JinyuBlog 阅读(512) 评论(0) 推荐(0) 编辑
摘要: “肥皂泡”问题来源于Reinforcement Learning: An Introduction(2017). Exercise 5.2,大致的描述如下: 用一个铁丝首尾相连组成闭合曲线,浸入肥皂泡液,拿起后,可以发现肥皂泡液以这个闭合曲线为边界形成了一个曲面。如何将这个曲面描述出来,便是肥皂泡问 阅读全文
posted @ 2018-07-21 12:27 JinyuBlog 阅读(1186) 评论(0) 推荐(0) 编辑
摘要: Gambler's Problem,即“赌徒问题”,是一个经典的动态编程里值迭代应用的问题。 在一个掷硬币游戏中,赌徒先下注,如果硬币为正面,赌徒赢回双倍,若是反面,则输掉赌注。赌徒给自己定了一个目标,本金赢到100块或是输光就结束游戏。找到一个关于本金与赌注之间关系的策略使得赌徒最快赢到100块。 阅读全文
posted @ 2018-07-18 23:13 JinyuBlog 阅读(1294) 评论(0) 推荐(0) 编辑
摘要: 本篇请结合课本Reinforcement Learning: An Introduction学习 Jack's Car Rental是一个经典的应用马尔可夫决策过程的问题,翻译过来,我们就直接叫它“租车问题”吧。租车问题的描述如下: Jack’s Car Rental Jack manages tw 阅读全文
posted @ 2018-07-16 19:31 JinyuBlog 阅读(2777) 评论(0) 推荐(0) 编辑
摘要: 请先阅读上两篇文章: 【RL系列】马尔可夫决策过程中状态价值函数的一般形式 【RL系列】马尔可夫决策过程与动态编程 状态价值函数,顾名思义,就是用于状态价值评价(SVE)的。典型的问题有“格子世界(GridWorld)”游戏(什么是格子世界?可以参考:Dynamic programming in P 阅读全文
posted @ 2018-07-13 20:24 JinyuBlog 阅读(1122) 评论(0) 推荐(0) 编辑
摘要: 请先阅读上一篇文章:【RL系列】马尔可夫决策过程与动态编程 在上一篇文章里,主要讨论了马尔可夫决策过程模型的来源和基本思想,并以MAB问题为例简单的介绍了动态编程的基本方法。虽然上一篇文章中的马尔可夫决策过程模型实现起来比较简单,但我认为其存在两个小问题: 数学表达上不够简洁 状态价值评价型问题与动 阅读全文
posted @ 2018-07-12 15:50 JinyuBlog 阅读(1668) 评论(0) 推荐(1) 编辑