随笔档案「2024年3月14日」：再探强化学习 ... - SkyRainWind

2024年3月14日

摘要：主要记录一下自己仔细学习 RL 时的感悟。记录一下防止遗忘 Q-learning 和 DQN 都是基于值函数的（如 \(V\) 和 \(Q\) 函数），而策略梯度（policy gradient）则是基于策略的。后者显式的训练一个策略，对这个策略使用梯度下降等方法。 actor-critic 本质上阅读全文

posted @ 2024-03-14 16:35 SkyRainWind 阅读(111) 评论(1) 推荐(1)

SkyRainWind

空を見ろ。空を見続けろ。答えはそこにある。

公告