2015 年 3月随笔档案 - coolAlan

MDP：马尔科夫决策过程（三）

摘要：MDP：马尔科夫决策过程（Markov Decision Process）贝尔曼等式：上节说到，这是对于确定性动作的模型。如果随机性动作的模型，应该表示为即，执行动作后的状态有多个，按照概率乘以值函数得到上式。因此，当前状态最优执行动作就是对于每个状态都有一个Vπ(S) ，所以对于每一步来说，可以得... 阅读全文

posted @ 2015-03-20 10:55 coolAlan 阅读(287) 评论(0) 推荐(0)

MDP：马尔科夫决策过程（二）

摘要：MDP：马尔科夫决策过程（Markov Decision Process）策略评价：对于确定性动作（deterministic actions），由于状态转换可能是无限的，那么奖惩函数之和的值也可能是无限的；对于随机性动作（stochastic actions），同样，奖惩函数期望之和也有可能是无限... 阅读全文

posted @ 2015-03-20 10:39 coolAlan 阅读(411) 评论(0) 推荐(0)

MDP：马尔科夫决策过程（一）

摘要：MDP：马尔科夫决策过程（Markov Decision Process）定义：一个马尔可夫模型包括如下部分状态集 S (States)动作集 A (Actions)奖惩函数 R (reward function)在状态 s 下，执行 a 动作的影响函数 T我们假设执行动作 a 的效果只与当... 阅读全文

posted @ 2015-03-20 09:56 coolAlan 阅读(396) 评论(0) 推荐(0)

coolAlan

非淡泊无以明志，非宁静无以致远

03 2015 档案

公告