8.3.2 基于值函数的Q-learning

式\((8.37)\)本质上是求解贝尔曼最优方程，跟前面的TD和Sarsa的目的已经不同了，所以行为策略是什么无所谓，目标策略是求解贝尔曼最优方程的产品。有空可以推导一下，上面是猜测

update 2025.9.25

这下子可以解释一下Sarsa和Q-learning基于值函数在优化什么了。实际上，将式\((8.3)\)中的状态值换成动作值，就是两者在优化的目标函数。只不过对于Sarsa来说，动作值的定义是基于贝尔曼方程的，而对于Q-learning来说，动作值的定义是基于贝尔曼最优方程的

posted @ 2025-08-30 13:08 最爱丁珰阅读(3) 评论(0) 收藏举报

刷新页面返回顶部