摘要: 【强化学习】值迭代和策略迭代 在强化学习中我们经常会遇到策略迭代与值迭代,但是很多人都搞不清楚他们两个之间的区别,他们其实都是强化学习中的动态规划方法(DP)。 ——《Reinforcement Learning:An Introduction》 (一)值迭代 (二)策略迭代 从一个初始化的策略出发 阅读全文
posted @ 2019-09-17 19:33 虔诚的树 阅读(5109) 评论(0) 推荐(1) 编辑