MDP：马尔科夫决策过程（三）

MDP：马尔科夫决策过程（Markov Decision Process）

贝尔曼等式：

上节说到，这是对于确定性动作的模型。如果随机性动作的模型，应该表示为

即，执行动作后的状态有多个，按照概率乘以值函数得到上式。

因此，当前状态最优执行动作就是

对于每个状态都有一个V_π(S) ，所以对于每一步来说，可以得到如下递推的形式：

posted @ 2015-03-20 10:55 coolAlan 阅读(298) 评论(0) 收藏举报

刷新页面返回顶部