会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
yijun0730
2018年10月29日
2. 动态规划
摘要: 在马尔科夫模型(MDP)完全已知的情况下,我们可以用动态规划来求解最优策略,求出在给定状态$s$下,应该选择哪一个 下个状态$s'$,这样使得累积奖励最大。 因为需要求解的是累积奖励,所以单纯的贪婪即时奖励最大的策略是不可行的。 所以我们引入了能够包含未来奖励的v值(和q值),在与环境的交互过程中,
阅读全文
posted @ 2018-10-29 15:20 yijun0730
阅读(255)
评论(0)
推荐(0)
导航
博客园
首页
新随笔
管理