摘要: 主要记录一下自己仔细学习 RL 时的感悟。记录一下防止遗忘 Q-learning 和 DQN 都是基于值函数的(如 \(V\) 和 \(Q\) 函数),而策略梯度(policy gradient)则是基于策略的。后者显式的训练一个策略,对这个策略使用梯度下降等方法。 actor-critic 本质上 阅读全文
posted @ 2024-03-14 16:35 SkyRainWind 阅读(20) 评论(0) 推荐(0) 编辑