随笔分类 - 强化学习

马尔可夫决策过程中的动规

摘要：RL学习路线记录强化学习入门的相关算法及实现。 DP Policy Evaluation 通过以下步骤进行同步backup ，从而评估一个给定的 policy ： 1. 在第 $k+1$ 轮， 2. 对于所有状态 $s\in S$， 3. 更新 $v_{k+1}(s)=\sum_{a\in\ 阅读全文

posted @ 2018-01-28 18:38 &ATM 阅读(620) 评论(0) 推荐(0)

ATM

理性不说“我”，而是增强自我。查拉图斯特拉如是说。

随笔分类 - 强化学习

公告

ATM

理性不说“我”，而是增强自我。 查拉图斯特拉如是说。

随笔分类 - 强化学习

公告

理性不说“我”，而是增强自我。查拉图斯特拉如是说。