11 2018 档案

摘要:上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: $$ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\pi}(s, a) $$ 通过机器学习的方法我们一旦近似了价值函数或者是动作价值函数就可以通过一些策略 阅读全文
posted @ 2018-11-02 09:52 Poll的笔记 阅读(7144) 评论(3) 推荐(1)
摘要:为什么需要值函数近似? 之前我们提到过各种计算值函数的方法,比如对于 MDP 已知的问题可以使用 Bellman 期望方程求得值函数;对于 MDP 未知的情况,可以通过 MC 以及 TD 方法来获得值函数,为什么需要再进行值函数近似呢? 其实到目前为止,我们介绍的值函数计算方法都是通过查表的方式获取 阅读全文
posted @ 2018-11-01 09:46 Poll的笔记 阅读(2121) 评论(0) 推荐(0)