2021年2月3日

摘要: 动态规划(DP)是一类优化方法,在给定一个用马尔可夫决策过程(MDP)描述的完备环境模型的情况下,其可以计算最优的策略。对于强化学习问题,传统的DP算法的作用有限。其原因有二:一是完备的环境模型只是一个假设 阅读全文
posted @ 2021-02-03 15:50 穷酸秀才大草包 阅读(123) 评论(0) 推荐(0)
摘要: 在强化学习所有的思想中,时序差分(TD)学习无疑是最核心、最新颖的思想。时序差分学习结合了蒙特卡洛方法和动态规划方法的思想。 阅读全文
posted @ 2021-02-03 15:45 穷酸秀才大草包 阅读(141) 评论(0) 推荐(0)
摘要: 蒙特卡洛算法仅仅需要经验,即从真实或者模拟的环境交互中采样得到的状态、动作、收益的序列。从真实经验中进行学习是非常好的,因为它不需要关于环境动态变化规律的先验知识,却依然能够达到最优的行为。从模拟经验中学习也是同样有效的,尽管这是需要一个模型,但这个模型只需要能够生成状态转移的一些样本,而不需要像动 阅读全文
posted @ 2021-02-03 15:40 穷酸秀才大草包 阅读(159) 评论(0) 推荐(0)

导航