8.3.2 基于值函数的Q-learning

\((8.37)\)本质上是求解贝尔曼最优方程,跟前面的TD和Sarsa的目的已经不同了,所以行为策略是什么无所谓,目标策略是求解贝尔曼最优方程的产品。有空可以推导一下,上面是猜测

update 2025.9.25

这下子可以解释一下Sarsa和Q-learning基于值函数在优化什么了。实际上,将式\((8.3)\)中的状态值换成动作值,就是两者在优化的目标函数。只不过对于Sarsa来说,动作值的定义是基于贝尔曼方程的,而对于Q-learning来说,动作值的定义是基于贝尔曼最优方程的

posted @ 2025-08-30 13:08  最爱丁珰  阅读(3)  评论(0)    收藏  举报