2019年2月22日

强化学习8-时序差分控制离线算法Q-Learning

摘要： Q-Learning和Sarsa一样是基于时序差分的控制算法，那两者有什么区别呢？这里已经必须引入新的概念时序差分控制算法的分类：在线和离线在线控制算法：一直使用一个策略选择动作和更新价值函数，如Sarsa 离线控制算法：两个策略，一个选择新的动作，一个更新价值函数，如Q-Learning Q 阅读全文

posted @ 2019-02-22 09:20 努力的孔子阅读(846) 评论(0) 推荐(0) 编辑

2019年2月20日

强化学习7-Sarsa

摘要：之前讲到时序差分是目前主流强化学习的基本思路，这节就学习一下主流算法之一 Sarsa模型。 Sarsa 是免模型的控制算法，是通过更新状态动作价值函数来得到最优策略的方法。更新方法 Q(S,A)=Q(S,A)+α(R+γQ(S′,A′)−Q(S,A)) // 回顾一下蒙特卡罗的更新方式 Q(S,A 阅读全文

posted @ 2019-02-20 18:00 努力的孔子阅读(1152) 评论(0) 推荐(2) 编辑

2019年2月18日

强化学习6-MC与TD的比较-实战

摘要：可以看到随着学习率的增大，效果越来越好，当学习率为0.5时，已经明显过拟合了这个是单步的，书上是单回合的，所以不同，后续有空会更新代码随机行走有个特殊性：两个终点，有一个终点奖励为0，也就是说在前几个回合中，单步更新的TD如果一开始向左走，需要好多步才能到达右边终点，而MC由于是整个回合，要么阅读全文

posted @ 2019-02-18 17:26 努力的孔子阅读(1149) 评论(0) 推荐(0) 编辑

2019年2月17日

强化学习4-时序差分TD

摘要：之前讲到强化学习在不基于模型时可以用蒙特卡罗方法求解，但是蒙特卡罗方法需要在每次采样时生产完整序列，而在现实中，我们很可能无法生成完整序列，那么又该如何解决这类强化学习问题呢？由贝尔曼方程 vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s) 推导可得 vπ(s)=Eπ(Rt+ 阅读全文

posted @ 2019-02-17 22:16 努力的孔子阅读(553) 评论(0) 推荐(1) 编辑

强化学习3-蒙特卡罗MC

摘要：之前讲到强化学习可以用马尔科夫决策过程来描述，通常情况下，马尔科夫需要知道 {S A P R γ}，γ是衰减因子，那为什么还需要蒙特卡罗呢？首先什么是蒙特卡罗？蒙特卡罗实际上是一座赌城的名字，蒙特卡罗方法是冯诺依曼用这座赌城的名字起的。蒙特卡罗方法的主要思想是：当求解的问题是某随机事件出现阅读全文

posted @ 2019-02-17 15:43 努力的孔子阅读(352) 评论(0) 推荐(1) 编辑

2019年2月22日

2019年2月20日

2019年2月18日

2019年2月17日

导航