8.3.1 基于值函数的Sarsa

式\((8.36)\)本质上是在求解给定策略下的动作值。所以如果我们不想要找到最优策略的话，式\((8.36)\)就是跟前面的TD算法的分析一样，可以求出来给定策略下的动作值；但是现在我们想要找到最优策略，那么应该先执行式\((8.36)\)无数次找到最优动作值然后按照其更新，现在使用广义策略迭代的思想进行更新就有了算法8.2