摘要: 强化学习Chapter4——两个基本优化算法(2) 上一节,依据贝尔曼方程得出了策略迭代算法(policy iteration),本节将介绍另一种根据贝尔曼最优方程提出的,价值迭代算法(value iteration)。在此之后,将阐述这两种算法的共性与区别,并总结出一个中间性能的截断策略迭代算法( 阅读全文
posted @ 2023-08-04 00:29 tsyhahaha 阅读(286) 评论(0) 推荐(0)