2024 年 11月 20 日随笔档案 - Tyler77

2024年11月20日

摘要：背景看Sutton的Reinforcement learning: An introduction，里面将策略迭代作为一种基于动态规划的方法。书中举了个grid world的例子，非常符合书中的数学原理，有状态转移概率，每个时间步就是每个state等..... 动态规划作为一个常见的面试八股，经阅读全文

posted @ 2024-11-20 02:28 Tyler77 阅读(268) 评论(0) 推荐(0)

Tyler

公告