二者都是基于Qtable的算法,其中Qlearning属于off-policy,Sarsa属于on-policy。
算法伪代码:
二者主要区别是更新Qtable的方式不同:
博客园 © 2004-2025 浙公网安备 33010602011771号 浙ICP备2021040463号-3