摘要: 1.Policy Evaluation(Prediction) 假如环境模型是完全知道的(就是知道环境的Dynamics),那么就可以将Bellman方程作为更新的原则来求的贝尔曼方程解,进而获得状态值函数vπ的解。其中计算状态值函数vπ就叫做Policy Evaluation。 另外,当k趋近于无 阅读全文
posted @ 2020-06-21 20:54 Respirar 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 1.Agent-Environment接口 Agent是学习者和决策制定者,环境是由一切Agent之外的东西组成。下图是马尔科夫决策过程的agent和environment交互过程。 如果说一个状态包含关于过去agent-env交互的全部信息,并且这个交互会对未来造成一定的影响,那么称这个状态具有马 阅读全文
posted @ 2020-06-21 20:51 Respirar 阅读(316) 评论(0) 推荐(1) 编辑