第8章值函数方法 - 随笔分类 - 最爱丁珰

8.4.1 算法描述

摘要：目录P180 P180 式\((8.38)\)应该是有一点问题的，在\(\max\)里面的动作值应该没有帽子。只不过非要说这个式子正确那也是正确的，我们只要从期望误差很小的角度去思考就行了，但是这个时候就涉及书上说的一个点，就是\(\max\)的梯度是不好计算的，就有了书上那个技巧，而如果\(\ma 阅读全文

posted @ 2025-08-30 15:14 最爱丁珰阅读(3) 评论(0) 推荐(0)

8.3.2 基于值函数的Q-learning

摘要：式\((8.37)\)本质上是求解贝尔曼最优方程，跟前面的TD和Sarsa的目的已经不同了，所以行为策略是什么无所谓，目标策略是求解贝尔曼最优方程的产品。有空可以推导一下，上面是猜测 update 2025.9.25 这下子可以解释一下Sarsa和Q-learning基于值函数在优化什么了。实际上，阅读全文

posted @ 2025-08-30 13:08 最爱丁珰阅读(3) 评论(0) 推荐(0)

8.3.1 基于值函数的Sarsa

摘要：式\((8.36)\)本质上是在求解给定策略下的动作值。所以如果我们不想要找到最优策略的话，式\((8.36)\)就是跟前面的TD算法的分析一样，可以求出来给定策略下的动作值；但是现在我们想要找到最优策略，那么应该先执行式\((8.36)\)无数次找到最优动作值然后按照其更新，现在使用广义策略迭代的阅读全文

posted @ 2025-08-30 13:07 最爱丁珰阅读(4) 评论(0) 推荐(0)

最爱丁珰

随笔分类 - 强化学习 / 强化学习的数学原理 / 第8章值函数方法

公告

最爱丁珰

随笔分类 - 强化学习 / 强化学习的数学原理 / 第8章 值函数方法

公告

随笔分类 - 强化学习 / 强化学习的数学原理 / 第8章值函数方法