随笔档案「2025年8月3日」：强化学习01 贝尔曼方程 ... - 行而上

摘要：本文首先定义马尔可夫决策过程，然后给出给定策略时计算状态值函数的贝尔曼方程。基于此，给出计算最优策略的贝尔曼最优化方程，可以证明该方程有唯一解，且该解就是最优决策。最后，简要地比较计算最优决策的两种算法：值迭代与策略迭代。阅读全文

posted @ 2025-08-03 09:25 行而上阅读(125) 评论(0) 推荐(0)

行而上