随笔分类 -  强化学习

摘要:本文介绍以TD-Learning为基础的model-free强化学习算法。我们用RM算法求解贝尔曼方程出发,介绍时序差分的数学原理。类比对于状态值的求解,得到求解动作值的SARSA算法。把以上算法和策略迭代结合,我们就得到了一种在线的求解最优策略的强化学习算法。通过把RM算法应用到贝尔曼最优化方程的求解,我们得到Q-Learning算法。最后,我们讨论如何用值函数近似的方法来处理状态集过大的问题,介绍著名的DQN算法。 阅读全文
posted @ 2025-08-16 02:39 行而上 阅读(38) 评论(0) 推荐(0)
摘要:本文介绍蒙特卡洛方法。当概率模型不是已知的时候,可以用采样代替建模,这就是蒙特卡洛方法。为了提高效率,可以在分配策略时采用epsilon-greedy的方法。最后我们介绍随机近似,引入RM算法和随机梯度下降,作为之后的强化学习算法的数学基础。 阅读全文
posted @ 2025-08-05 06:20 行而上 阅读(61) 评论(0) 推荐(0)
摘要:本文首先定义马尔可夫决策过程,然后给出给定策略时计算状态值函数的贝尔曼方程。基于此,给出计算最优策略的贝尔曼最优化方程,可以证明该方程有唯一解,且该解就是最优决策。最后,简要地比较计算最优决策的两种算法:值迭代与策略迭代。 阅读全文
posted @ 2025-08-03 09:25 行而上 阅读(63) 评论(0) 推荐(0)