2021 年 2月 13 日随笔档案 - gy77

2021年2月13日

摘要：第三课：Model-free prediction和Model-free control 什么是MDP已知？：马尔可夫决策过程中它的奖励 \(R\) 以及状态转移概率矩阵 \(P\) 都是暴露给agent的，就是环境是提前提供给你的，你是已知的。所以我们能够用策略迭代的方法policy iter 阅读全文

posted @ 2021-02-13 16:48 gy77 阅读(371) 评论(0) 推荐(0)

一届书生

本博客所有内容以学习、研究和分享为主，如需转载，请标明作者和出处，并且是非商业用途，谢谢。

公告