<强化学习>从传统方法到现代方法

在过去,使用一个表格来存储V(s)或Q(s,a)

  如果已知完整MDP,V(s),也就是有完整模型,也有状态转移概率矩阵,那DP求状态价值期望解贝尔曼最优方程就🆗了

  如果MDP不完整,Q(s,a),没有状态转移概率矩阵,这是大多数情况,那么我们使用采样法来做policy-evaluation,有MC,TD,TD n steps,TD(lamda)

现在,用一个回归映射来替代那张value表格,把深度学习回归问题预测方法拿到强化学习迭代中使用。

  建立一个    从s到v(s)       的映射

      从(s,a)到Q(s,a)  的映射

      从s到policy        的映射

      .........

 

posted @ 2020-02-20 10:42  dynmi  阅读(156)  评论(0编辑  收藏  举报