<强化学习>从传统方法到现代方法
在过去,使用一个表格来存储V(s)或Q(s,a)
如果已知完整MDP,V(s),也就是有完整模型,也有状态转移概率矩阵,那DP求状态价值期望解贝尔曼最优方程就🆗了
如果MDP不完整,Q(s,a),没有状态转移概率矩阵,这是大多数情况,那么我们使用采样法来做policy-evaluation,有MC,TD,TD n steps,TD(lamda)
现在,用一个回归映射来替代那张value表格,把深度学习回归问题预测方法拿到强化学习迭代中使用。
建立一个 从s到v(s) 的映射
从(s,a)到Q(s,a) 的映射
从s到policy 的映射
.........