7.4.2

感觉说求解贝尔曼最优方程只能评价当前策略是因为Sarsa需要在时刻t+1使用策略得到动作,然后我们去评价这个动作(相比之下,Q-learning直接使用max,没有对策略进行评价)
但是说求解贝尔曼最优方程可以直接得到最优策略应该指的是此时目标策略不再需要探索性,所以可以得到最优的策略(见图7.4),所以on-policy的Q-learning应该还是不可以直接得到最优策略的;Q-learning是off-policy的本质原因感觉也不是这个,不知道这两个有什么关联
实际上如果有无穷多的经验数据的话,最后Sarsa得到的也是最优策略,但是现实中不可能,所以只能得到近似的最优策略,而(off-policy的)Q-learning在现实中可以得到。我感觉书上说的这个直接不直接就是指的这个

或者从数学角度理解也可能是这样的:就是说Sarsa求的贝尔曼方程是评价策略的,要得到最佳策略的话,就要让策略评价和策略改进一起做,而且两个策略是一样的,所以是On-policy的;而Q-learning求解贝尔曼最优方程,就可以直接得到最佳策略,所以可以是off-policy的

posted @ 2025-08-21 17:30  最爱丁珰  阅读(4)  评论(0)    收藏  举报