off-policy 算法的核心机制

off-policy 算法能通过 \(Q_\pi(s, a)\) 优化目标策略,关键在于引入重要性采样(Importance Sampling) 或最大化操作:

  • 重要性采样:通过权重修正行为策略与目标策略的差异,如 TD (0) off-policy 算法。
  • 最大化操作:如 Q-learning 直接用目标策略的最优动作更新 Q 函数,无需显式修正权重,但隐含假设行为策略能覆盖目标策略的动作空间(即 “覆盖性” 条件)。
posted @ 2025-06-22 17:51  有何m不可  阅读(13)  评论(0)    收藏  举报