2020年9月6日

强化学习(6)---马尔可夫过程

摘要: 一、概念 1、finite MDP:如果一个强化学习任务满足马尔科夫性质,那么就可以把这个任务叫做马尔科夫过程。如果状态空间和动作空间是有限的,那么就叫做有限马尔科夫过程,即finite MDP。 2、状态S、动作A、转移概率P、期望价值r、 一个典型的finite MDP 由状态集、动作集和一步内 阅读全文

posted @ 2020-09-06 20:25 吱吱了了 阅读(752) 评论(0) 推荐(0) 编辑

导航