基础知识 / 强化学习 - 随笔分类 - dynmi

<强化学习>从传统方法到现代方法

摘要：在过去，使用一个表格来存储V(s)或Q(s,a) 如果已知完整MDP，V(s)，也就是有完整模型，也有状态转移概率矩阵，那DP求状态价值期望解贝尔曼最优方程就🆗了如果MDP不完整，Q(s,a)，没有状态转移概率矩阵，这是大多数情况，那么我们使用采样法来做policy-evaluation，有MC 阅读全文

posted @ 2020-02-20 10:42 dynmi 阅读(167) 评论(0) 推荐(0)

<强化学习>基于采样迭代优化agent

摘要：前面介绍了三种采样求均值的算法 ——MC ——TD ——TD(lamda) 下面我们基于这几种方法来迭代优化agent 传统的强化学习算法 || ν ν 已经知道完整MDP——使用价值函数V（s）没有给出完整MDP——使用价值函数Q（s，a）可见我们的目标就是确定下来最优策略和最优价值函数 | 阅读全文

posted @ 2020-02-14 20:05 dynmi 阅读(603) 评论(0) 推荐(1)

<强化学习>无模型下计算给定策略对应的价值函数，Model free Prediction，评估一个给定策略的表现

摘要：一、Intro Prediction只是评估给定策略的表现，直白的说它是找 “在环境ENV下，AGENT按照给定的策略pai，AGENT的价值函数”。这篇blog只介绍三种计算方法，没有涉及到 “求取ENV下的最优AGENT”！对于事先已经给出了ENV，也就是说我们有完整的MDP，知道所有的st 阅读全文

posted @ 2020-02-14 13:00 dynmi 阅读(352) 评论(0) 推荐(0)

<强化学习>马尔可夫决策过程MDP

摘要：一.MDP / NFA ：马尔可夫模型和不确定型有限状态机的不同状态自动机：https://www.cnblogs.com/AndyEvans/p/10240790.html MDP和NFA唯一相似的地方就是它们都有状态转移，抛掉这一点两者就八竿子打不着了。二.MP -> MRP -> MDP 阅读全文

posted @ 2020-02-12 09:56 dynmi 阅读(521) 评论(0) 推荐(0)

<强化学习>开门帖

摘要：（本系列只用作本人笔记，如果看官是以新手开始学习RL，不建议看我写的笔记昂）今天是2020年2月7日,开始二刷david silver ulc课程。https://www.youtube.com/watch?v=2pWv7GOvuf0&list=PLqYmG7hTraZDM-OYHWgPebj2M 阅读全文

posted @ 2020-02-07 23:02 dynmi 阅读(273) 评论(0) 推荐(0)

<强化学习>基本概念

摘要：马尔可夫决策过程MDP，是强化学习的基础。 MDP <S，A，P，R，γ> AGENT STATE ENV REWARD ，由ENV给出。agent处于状态s下，采取action之后离开状态获得一个reward。即f：S x A >R 所有强化学习问题解决的目标都可以描述成最大化累积奖励。All g 阅读全文

posted @ 2020-02-05 14:11 dynmi 阅读(410) 评论(0) 推荐(0)

Haris Wang's Blog

随笔分类 - 基础知识 / 强化学习