摘要:
MDP算法简介:首先MDP算法由五个单元组成(S、A、Psa(s')、R、G) S:代表状态集合,即整个事件有多少中可能的状态 A:代表每个状态下的所有可能的行为 Psa(s'):代表在状态s下采取行为a转移到s'的状态转移概率 R:代表的是回报函数(reward function),指到达某个状态 阅读全文
posted @ 2017-06-20 11:43
琳千寻
阅读(1596)
评论(0)
推荐(0)
2017年6月20日