随笔分类 - 基础知识 / 强化学习
摘要:在过去,使用一个表格来存储V(s)或Q(s,a) 如果已知完整MDP,V(s),也就是有完整模型,也有状态转移概率矩阵,那DP求状态价值期望解贝尔曼最优方程就🆗了 如果MDP不完整,Q(s,a),没有状态转移概率矩阵,这是大多数情况,那么我们使用采样法来做policy-evaluation,有MC
阅读全文
摘要:前面介绍了三种采样求均值的算法 ——MC ——TD ——TD(lamda) 下面我们基于这几种方法来 迭代优化agent 传统的强化学习算法 || ν ν 已经知道完整MDP——使用价值函数V(s) 没有给出完整MDP——使用价值函数Q(s,a) 可见我们的目标就是确定下来最优策略和最优价值函数 |
阅读全文
摘要:一、Intro Prediction只是评估给定策略的表现,直白的说它是找 “在环境ENV下,AGENT按照给定的策略pai,AGENT的价值函数”。 这篇blog只介绍三种计算方法,没有涉及到 “求取ENV下的最优AGENT”! 对于事先已经给出了ENV,也就是说我们有完整的MDP,知道所有的st
阅读全文
摘要:一.MDP / NFA :马尔可夫模型和不确定型有限状态机的不同 状态自动机:https://www.cnblogs.com/AndyEvans/p/10240790.html MDP和NFA唯一相似的地方就是它们都有状态转移,抛掉这一点两者就八竿子打不着了。 二.MP -> MRP -> MDP
阅读全文
摘要:(本系列只用作本人笔记,如果看官是以新手开始学习RL,不建议看我写的笔记昂) 今天是2020年2月7日,开始二刷david silver ulc课程。https://www.youtube.com/watch?v=2pWv7GOvuf0&list=PLqYmG7hTraZDM-OYHWgPebj2M
阅读全文
摘要:马尔可夫决策过程MDP,是强化学习的基础。 MDP <S,A,P,R,γ> AGENT STATE ENV REWARD ,由ENV给出。agent处于状态s下,采取action之后离开状态获得一个reward。即f:S x A >R 所有强化学习问题解决的目标都可以描述成最大化累积奖励。All g
阅读全文

浙公网安备 33010602011771号