2020 年 2月 14 日随笔档案 - dynmi

2020年2月14日

摘要：前面介绍了三种采样求均值的算法 ——MC ——TD ——TD(lamda) 下面我们基于这几种方法来迭代优化agent 传统的强化学习算法 || ν ν 已经知道完整MDP——使用价值函数V（s）没有给出完整MDP——使用价值函数Q（s，a）可见我们的目标就是确定下来最优策略和最优价值函数 | 阅读全文

posted @ 2020-02-14 20:05 dynmi 阅读(530) 评论(0) 推荐(1) 编辑

<强化学习>无模型下计算给定策略对应的价值函数，Model free Prediction，评估一个给定策略的表现

摘要：一、Intro Prediction只是评估给定策略的表现，直白的说它是找 “在环境ENV下，AGENT按照给定的策略pai，AGENT的价值函数”。这篇blog只介绍三种计算方法，没有涉及到 “求取ENV下的最优AGENT”！对于事先已经给出了ENV，也就是说我们有完整的MDP，知道所有的st 阅读全文

posted @ 2020-02-14 13:00 dynmi 阅读(296) 评论(0) 推荐(0) 编辑

Haris Wang's Blog