随笔分类 -  基础知识 / 强化学习

摘要:在过去,使用一个表格来存储V(s)或Q(s,a) 如果已知完整MDP,V(s),也就是有完整模型,也有状态转移概率矩阵,那DP求状态价值期望解贝尔曼最优方程就🆗了 如果MDP不完整,Q(s,a),没有状态转移概率矩阵,这是大多数情况,那么我们使用采样法来做policy-evaluation,有MC 阅读全文
posted @ 2020-02-20 10:42 dynmi 阅读(167) 评论(0) 推荐(0)
摘要:前面介绍了三种采样求均值的算法 ——MC ——TD ——TD(lamda) 下面我们基于这几种方法来 迭代优化agent 传统的强化学习算法 || ν ν 已经知道完整MDP——使用价值函数V(s) 没有给出完整MDP——使用价值函数Q(s,a) 可见我们的目标就是确定下来最优策略和最优价值函数 | 阅读全文
posted @ 2020-02-14 20:05 dynmi 阅读(603) 评论(0) 推荐(1)
摘要:一、Intro Prediction只是评估给定策略的表现,直白的说它是找 “在环境ENV下,AGENT按照给定的策略pai,AGENT的价值函数”。 这篇blog只介绍三种计算方法,没有涉及到 “求取ENV下的最优AGENT”! 对于事先已经给出了ENV,也就是说我们有完整的MDP,知道所有的st 阅读全文
posted @ 2020-02-14 13:00 dynmi 阅读(352) 评论(0) 推荐(0)
摘要:一.MDP / NFA :马尔可夫模型和不确定型有限状态机的不同 状态自动机:https://www.cnblogs.com/AndyEvans/p/10240790.html MDP和NFA唯一相似的地方就是它们都有状态转移,抛掉这一点两者就八竿子打不着了。 二.MP -> MRP -> MDP 阅读全文
posted @ 2020-02-12 09:56 dynmi 阅读(521) 评论(0) 推荐(0)
摘要:(本系列只用作本人笔记,如果看官是以新手开始学习RL,不建议看我写的笔记昂) 今天是2020年2月7日,开始二刷david silver ulc课程。https://www.youtube.com/watch?v=2pWv7GOvuf0&list=PLqYmG7hTraZDM-OYHWgPebj2M 阅读全文
posted @ 2020-02-07 23:02 dynmi 阅读(273) 评论(0) 推荐(0)
摘要:马尔可夫决策过程MDP,是强化学习的基础。 MDP <S,A,P,R,γ> AGENT STATE ENV REWARD ,由ENV给出。agent处于状态s下,采取action之后离开状态获得一个reward。即f:S x A >R 所有强化学习问题解决的目标都可以描述成最大化累积奖励。All g 阅读全文
posted @ 2020-02-05 14:11 dynmi 阅读(410) 评论(0) 推荐(0)