摘要: 前面介绍了三种采样求均值的算法 ——MC ——TD ——TD(lamda) 下面我们基于这几种方法来 迭代优化agent 传统的强化学习算法 || ν ν 已经知道完整MDP——使用价值函数V(s) 没有给出完整MDP——使用价值函数Q(s,a) 可见我们的目标就是确定下来最优策略和最优价值函数 | 阅读全文
posted @ 2020-02-14 20:05 dynmi 阅读(530) 评论(0) 推荐(1) 编辑
摘要: 一、Intro Prediction只是评估给定策略的表现,直白的说它是找 “在环境ENV下,AGENT按照给定的策略pai,AGENT的价值函数”。 这篇blog只介绍三种计算方法,没有涉及到 “求取ENV下的最优AGENT”! 对于事先已经给出了ENV,也就是说我们有完整的MDP,知道所有的st 阅读全文
posted @ 2020-02-14 13:00 dynmi 阅读(296) 评论(0) 推荐(0) 编辑