会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
穷酸秀才大艹包
上海交通大学CS博士生
2021年2月3日
强化学习第2版第4章笔记——动态规划
摘要: 动态规划(DP)是一类优化方法,在给定一个用马尔可夫决策过程(MDP)描述的完备环境模型的情况下,其可以计算最优的策略。对于强化学习问题,传统的DP算法的作用有限。其原因有二:一是完备的环境模型只是一个假设
阅读全文
posted @ 2021-02-03 15:50 穷酸秀才大草包
阅读(123)
评论(0)
推荐(0)
强化学习第2版第6章笔记——时序差分学习
摘要: 在强化学习所有的思想中,时序差分(TD)学习无疑是最核心、最新颖的思想。时序差分学习结合了蒙特卡洛方法和动态规划方法的思想。
阅读全文
posted @ 2021-02-03 15:45 穷酸秀才大草包
阅读(141)
评论(0)
推荐(0)
强化学习第2版第5章笔记——蒙特卡洛方法
摘要: 蒙特卡洛算法仅仅需要经验,即从真实或者模拟的环境交互中采样得到的状态、动作、收益的序列。从真实经验中进行学习是非常好的,因为它不需要关于环境动态变化规律的先验知识,却依然能够达到最优的行为。从模拟经验中学习也是同样有效的,尽管这是需要一个模型,但这个模型只需要能够生成状态转移的一些样本,而不需要像动
阅读全文
posted @ 2021-02-03 15:40 穷酸秀才大草包
阅读(159)
评论(0)
推荐(0)
导航
博客园
首页
新随笔
联系
订阅
管理
公告