<强化学习>从传统方法到现代方法

在过去，使用一个表格来存储V(s)或Q(s,a)

　　如果已知完整MDP，V(s)，也就是有完整模型，也有状态转移概率矩阵，那DP求状态价值期望解贝尔曼最优方程就🆗了

　　如果MDP不完整，Q(s,a)，没有状态转移概率矩阵，这是大多数情况，那么我们使用采样法来做policy-evaluation，有MC，TD，TD n steps，TD(lamda)

现在，用一个回归映射来替代那张value表格，把深度学习回归问题预测方法拿到强化学习迭代中使用。

　　建立一个从s到v(s) 的映射

　　　　　　从(s,a)到Q(s,a) 的映射

　　　　　　从s到policy 的映射

　　　　　　.........

posted @ 2020-02-20 10:42 dynmi 阅读(156) 评论(0) 编辑收藏举报

刷新页面返回顶部

Haris Wang's Blog