8.3.1 基于值函数的Sarsa

\((8.36)\)本质上是在求解给定策略下的动作值。所以如果我们不想要找到最优策略的话,式\((8.36)\)就是跟前面的TD算法的分析一样,可以求出来给定策略下的动作值;但是现在我们想要找到最优策略,那么应该先执行式\((8.36)\)无数次找到最优动作值然后按照其更新,现在使用广义策略迭代的思想进行更新就有了算法8.2

posted @ 2025-08-30 13:07  最爱丁珰  阅读(5)  评论(0)    收藏  举报