03 2015 档案
摘要:MDP:马尔科夫决策过程(Markov Decision Process)贝尔曼等式:上节说到,这是对于确定性动作的模型。如果随机性动作的模型,应该表示为即,执行动作后的状态有多个,按照概率乘以值函数得到上式。因此,当前状态最优执行动作就是对于每个状态都有一个Vπ(S) ,所以对于每一步来说,可以得...
阅读全文
摘要:MDP:马尔科夫决策过程(Markov Decision Process)策略评价:对于确定性动作(deterministic actions),由于状态转换可能是无限的,那么奖惩函数之和的值也可能是无限的;对于随机性动作(stochastic actions),同样,奖惩函数期望之和也有可能是无限...
阅读全文
摘要:MDP:马尔科夫决策过程(Markov Decision Process)定义:一个马尔可夫模型包括如下部分状态集 S (States)动作集 A (Actions)奖惩函数 R (reward function)在状态 s 下,执行 a 动作的影响函数 T我们假设执行动作 a 的效果只与当...
阅读全文