2023 年 8月 4 日随笔档案 - tsyhahaha

2023年8月4日

摘要：强化学习Chapter4——两个基本优化算法（2）上一节，依据贝尔曼方程得出了策略迭代算法（policy iteration），本节将介绍另一种根据贝尔曼最优方程提出的，价值迭代算法（value iteration）。在此之后，将阐述这两种算法的共性与区别，并总结出一个中间性能的截断策略迭代算法（阅读全文

posted @ 2023-08-04 00:29 tsyhahaha 阅读(286) 评论(0) 推荐(0)

tsyhahaha

公告