会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ATM
理性不说“我”,而是增强自我。 查拉图斯特拉如是说。
博客园
首页
新随笔
联系
管理
随笔分类 -
强化学习
马尔可夫决策过程中的动规
摘要:RL学习路线 记录强化学习入门的相关算法及实现。 DP Policy Evaluation 通过以下步骤进行 同步backup ,从而 评估 一个给定的 policy : 1. 在第 $k+1$ 轮, 2. 对于所有状态 $s\in S$, 3. 更新 $v_{k+1}(s)=\sum_{a\in\
阅读全文
posted @
2018-01-28 18:38
&ATM
阅读(620)
评论(0)
推荐(0)
公告
……