会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
月出兮彩云归 🌙
首页
新随笔
联系
订阅
管理
2025年6月7日
RL | 如何推导 MaxEnt RL(最大熵 RL)的策略形式 π(a|s) ∝ exp(Q(s, a))
摘要: 考虑一步策略改进,把选 action 的概率 $\pi (a|s)$ 当作变量,$\sum \pi (a|s) = 1$ 作为约束条件,使用拉格朗日乘子 $\lambda$ 干掉。对 $V^\text{new}(s)$ 求偏导,偏导数 = 0。
阅读全文
posted @ 2025-06-07 21:31 MoonOut
阅读(161)
评论(0)
推荐(0)
公告