g
y
7
7
7
7
摘要: 第三课:Model-free prediction和Model-free control 什么是MDP已知?: 马尔可夫决策过程中它的奖励 \(R\) 以及状态转移概率矩阵 \(P\) 都是暴露给agent的,就是环境是提前提供给你的,你是已知的。 所以我们能够用策略迭代的方法policy iter 阅读全文
posted @ 2021-02-13 16:48 gy77 阅读(249) 评论(0) 推荐(0) 编辑