摘要:
本文介绍以TD-Learning为基础的model-free强化学习算法。我们用RM算法求解贝尔曼方程出发,介绍时序差分的数学原理。类比对于状态值的求解,得到求解动作值的SARSA算法。把以上算法和策略迭代结合,我们就得到了一种在线的求解最优策略的强化学习算法。通过把RM算法应用到贝尔曼最优化方程的求解,我们得到Q-Learning算法。最后,我们讨论如何用值函数近似的方法来处理状态集过大的问题,介绍著名的DQN算法。 阅读全文
posted @ 2025-08-16 02:39
行而上
阅读(50)
评论(0)
推荐(0)

浙公网安备 33010602011771号