摘要:
1、MP(马尔科夫过程) 1.1、MDP介绍 1)MDP形式化地表达强化学习的过程(此时假设环境完全可以观察) 2) 几乎所有强化学习问题都可以形式化为MDP 1.2、MDP定义 MDP是一个二元组<S,P>,其中S是状态集合;P是状态转移概率 2、MRP(马尔科夫奖励过程) 在MP中加入了Rewa 阅读全文
posted @ 2017-08-14 05:15
_1024
阅读(676)
评论(0)
推荐(0)