03 2015 档案

摘要:MDP:马尔科夫决策过程(Markov Decision Process)贝尔曼等式:上节说到,这是对于确定性动作的模型。如果随机性动作的模型,应该表示为即,执行动作后的状态有多个,按照概率乘以值函数得到上式。因此,当前状态最优执行动作就是对于每个状态都有一个Vπ(S) ,所以对于每一步来说,可以得... 阅读全文
posted @ 2015-03-20 10:55 coolAlan 阅读(287) 评论(0) 推荐(0)
摘要:MDP:马尔科夫决策过程(Markov Decision Process)策略评价:对于确定性动作(deterministic actions),由于状态转换可能是无限的,那么奖惩函数之和的值也可能是无限的;对于随机性动作(stochastic actions),同样,奖惩函数期望之和也有可能是无限... 阅读全文
posted @ 2015-03-20 10:39 coolAlan 阅读(411) 评论(0) 推荐(0)
摘要:MDP:马尔科夫决策过程(Markov Decision Process)定义:一个马尔可夫模型包括如下部分状态集 S (States)动作集 A (Actions)奖惩函数 R (reward function)在状态 s 下,执行 a 动作的影响函数 T我们假设执行动作 a 的效果只与当... 阅读全文
posted @ 2015-03-20 09:56 coolAlan 阅读(396) 评论(0) 推荐(0)