会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
gongzb
博客园
首页
新随笔
联系
订阅
管理
off-policy 算法的核心机制
off-policy 算法能通过
\(Q_\pi(s, a)\) 优化目标策略,关键在于引入重要性采样(Importance Sampling) 或最大化操作:
重要性采样:通过权重修正行为策略与目标策略的差异,如 TD (0) off-policy 算法。
最大化操作:如 Q-learning 直接用目标策略的最优动作更新
Q 函数,无需显式修正权重,但隐含假设行为策略能覆盖目标策略的动作空间(即 “覆盖性” 条件)。
posted @
2025-06-22 17:51
有何m不可
阅读(
13
) 评论(
0
)
收藏
举报
刷新页面
返回顶部
公告