强化学习——值迭代和策略迭代

【强化学习】值迭代和策略迭代

在强化学习中我们经常会遇到策略迭代与值迭代，但是很多人都搞不清楚他们两个之间的区别，他们其实都是强化学习中的动态规划方法（DP）。 ——《Reinforcement Learning:An Introduction》

对每一个当前状态 s ,对每个可能的动作 a 都计算一下采取这个动作后到达的下一个状态的期望价值。看看哪个动作可以到达的状态的期望价值函数最大，就将这个最大的期望价值函数作为当前状态的价值函数 V(s) ，循环执行这个步骤，直到价值函数收敛。

400

从一个初始化的策略出发，先进行策略评估，然后改进策略，评估改进的策略，再进一步改进策略，经过不断迭代更新，直达策略收敛，这种算法被称为“策略迭代”

References:

[1] 【强化学习】值迭代与策略迭代

posted @ 2019-09-17 19:33 虔诚的树阅读(6237) 评论(0) 收藏举报

刷新页面返回顶部