随笔分类 -  强化学习 / 强化学习的数学原理 / 第8章 值函数方法

摘要:目录P180 P180 式\((8.38)\)应该是有一点问题的,在\(\max\)里面的动作值应该没有帽子。只不过非要说这个式子正确那也是正确的,我们只要从期望误差很小的角度去思考就行了,但是这个时候就涉及书上说的一个点,就是\(\max\)的梯度是不好计算的,就有了书上那个技巧,而如果\(\ma 阅读全文
posted @ 2025-08-30 15:14 最爱丁珰 阅读(3) 评论(0) 推荐(0)
摘要:式\((8.37)\)本质上是求解贝尔曼最优方程,跟前面的TD和Sarsa的目的已经不同了,所以行为策略是什么无所谓,目标策略是求解贝尔曼最优方程的产品。有空可以推导一下,上面是猜测 update 2025.9.25 这下子可以解释一下Sarsa和Q-learning基于值函数在优化什么了。实际上, 阅读全文
posted @ 2025-08-30 13:08 最爱丁珰 阅读(3) 评论(0) 推荐(0)
摘要:式\((8.36)\)本质上是在求解给定策略下的动作值。所以如果我们不想要找到最优策略的话,式\((8.36)\)就是跟前面的TD算法的分析一样,可以求出来给定策略下的动作值;但是现在我们想要找到最优策略,那么应该先执行式\((8.36)\)无数次找到最优动作值然后按照其更新,现在使用广义策略迭代的 阅读全文
posted @ 2025-08-30 13:07 最爱丁珰 阅读(4) 评论(0) 推荐(0)