会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
QIY
Quest It Yourself
博客园
首页
新随笔
联系
订阅
管理
2019年7月3日
强化学习(四)用蒙特卡罗法(MC)求解
摘要: 在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型P都无法知道,这时动态规划法根本没法使用
阅读全文
posted @ 2019-07-03 15:17 qiynet
阅读(323)
评论(0)
推荐(0)
跳至侧栏