随笔分类 - 强化学习 / 强化学习的数学原理
摘要:QAC与Sarsa的区别是什么?前者先更新策略再更新值,后者反之吗? 核心区别:算法家族不同 Sarsa (属于 Value-Based 方法) 目标:直接、准确地学习动作价值函数 Q(s, a)。它试图回答“在状态s下采取动作a,平均能获得多少回报”这个问题。 策略:策略是从Q表中衍生出来的,例如
阅读全文
摘要:目录P180 P180 式\((8.38)\)应该是有一点问题的,在\(\max\)里面的动作值应该没有帽子。只不过非要说这个式子正确那也是正确的,我们只要从期望误差很小的角度去思考就行了,但是这个时候就涉及书上说的一个点,就是\(\max\)的梯度是不好计算的,就有了书上那个技巧,而如果\(\ma
阅读全文
摘要:式\((8.37)\)本质上是求解贝尔曼最优方程,跟前面的TD和Sarsa的目的已经不同了,所以行为策略是什么无所谓,目标策略是求解贝尔曼最优方程的产品。有空可以推导一下,上面是猜测 update 2025.9.25 这下子可以解释一下Sarsa和Q-learning基于值函数在优化什么了。实际上,
阅读全文
摘要:式\((8.36)\)本质上是在求解给定策略下的动作值。所以如果我们不想要找到最优策略的话,式\((8.36)\)就是跟前面的TD算法的分析一样,可以求出来给定策略下的动作值;但是现在我们想要找到最优策略,那么应该先执行式\((8.36)\)无数次找到最优动作值然后按照其更新,现在使用广义策略迭代的
阅读全文
摘要:目录P220 P220 \(J(\theta)\)并不是利用重要性采样得出的。我们现在没有估计在\(\pi\)下的平均状态值了,而是估计的行为策略为\(\beta\),目标策略为\(\pi\)的平均状态值,我们关心的是在行为策略β经常访问的状态下,目标策略π的性能如何;这里直接用重要性采样去估计行为
阅读全文
摘要:感觉说求解贝尔曼最优方程只能评价当前策略是因为Sarsa需要在时刻t+1使用策略得到动作,然后我们去评价这个动作(相比之下,Q-learning直接使用max,没有对策略进行评价) 但是说求解贝尔曼最优方程可以直接得到最优策略应该指的是此时目标策略不再需要探索性,所以可以得到最优的策略(见图7.4)
阅读全文
摘要:为了更严谨地重新分析为什么谱范数 \(\|\nabla^2 f(x)\|_2 \leq L\),我们结合梯度利普希茨连续性假设和谱范数的数学定义,逐步推导如下: 步骤1:明确假设条件 假设2:梯度 \(\nabla f\) 是 \(L\)-利普希茨连续的,即: \[\|\nabla f(x) - \
阅读全文

浙公网安备 33010602011771号