会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Less is More
首页
新随笔
联系
订阅
管理
2019年10月8日
【强化学习】阶段总结
摘要: 马尔可夫决策过程 MDP 基于模型的动态规划方法(Model-Based,DP) 策略搜索 策略迭代 值迭代 无模型的强化学习方法(Model-Free) 蒙特卡洛方法(MC):效率不高,但是能够展现 model-free 类算法的特性; 时序差分方法(TD,Important):直接从 episo
阅读全文
posted @ 2019-10-08 23:21 虔诚的树
阅读(673)
评论(0)
推荐(2)
公告