摘要: 背景 看Sutton的Reinforcement learning: An introduction,里面将策略迭代作为一种基于动态规划的方法。 书中举了个grid world的例子,非常符合书中的数学原理,有状态转移概率,每个时间步就是每个state等..... 动态规划作为一个常见的面试八股,经 阅读全文
posted @ 2024-11-20 02:28 Tyler77 阅读(188) 评论(0) 推荐(0)