会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大浪淘沙、
不积跬步无以至千里,不积小流无以成江海,骐骥一跃不能十步,驽马十驾功在不舍。
博客园
首页
新随笔
联系
订阅
管理
2020年5月23日
李宏毅的强化学习视频用于梳理翻阅(3)值
摘要: 估计价值的方法MC与TD MC(Monte-Carlo)的方法,在Sutton的书中有比较权威并详细的说明。地址:https://rl.qiwihui.com/zh_CN/latest/index.html 下图是首次访问型的MC方法,估计状态的价值V。在初始化后,先根据策略获取一个完整的序列,然后
阅读全文
posted @ 2020-05-23 12:47 大浪淘沙、
阅读(160)
评论(0)
推荐(0)
公告