2021 年 2月 3 日随笔档案 - 穷酸秀才大草包

摘要：动态规划(DP)是一类优化方法，在给定一个用马尔可夫决策过程(MDP)描述的完备环境模型的情况下，其可以计算最优的策略。对于强化学习问题，传统的DP算法的作用有限。其原因有二：一是完备的环境模型只是一个假设阅读全文

posted @ 2021-02-03 15:50 穷酸秀才大草包阅读(126) 评论(0) 推荐(0)

摘要：在强化学习所有的思想中，时序差分(TD)学习无疑是最核心、最新颖的思想。时序差分学习结合了蒙特卡洛方法和动态规划方法的思想。阅读全文

posted @ 2021-02-03 15:45 穷酸秀才大草包阅读(148) 评论(0) 推荐(0)

摘要：蒙特卡洛算法仅仅需要经验，即从真实或者模拟的环境交互中采样得到的状态、动作、收益的序列。从真实经验中进行学习是非常好的，因为它不需要关于环境动态变化规律的先验知识，却依然能够达到最优的行为。从模拟经验中学习也是同样有效的，尽管这是需要一个模型，但这个模型只需要能够生成状态转移的一些样本，而不需要像动阅读全文

posted @ 2021-02-03 15:40 穷酸秀才大草包阅读(165) 评论(0) 推荐(0)

穷酸秀才大艹包

导航

公告