10.1 最简单的演员-评论家算法:QAC

QAC与Sarsa的区别是什么?前者先更新策略再更新值,后者反之吗?

核心区别:算法家族不同

  1. Sarsa (属于 Value-Based 方法)

    • 目标:直接、准确地学习动作价值函数 Q(s, a)。它试图回答“在状态s下采取动作a,平均能获得多少回报”这个问题。
    • 策略:策略是从Q表中衍生出来的,例如使用 ε-greedy 策略。策略本身(π)不是直接的学习对象。学习完成后,Q表就是核心知识,策略可以随时从Q表生成。
    • 输出:一个Q值表格(或一个近似Q值的函数)。
  2. QAC (属于 Policy-Based 方法 - Actor-Critic 架构)

    • 目标:直接学习并优化策略函数 π(a|s; θ) 本身。它试图找到一个最优的“行为方式”。
    • 架构
      • Actor (演员):负责执行策略。它输入状态s,输出动作的概率分布(例如,70%向左,30%向右)。它的参数 θ 被调整以最大化期望回报。
      • Critic (评论家):负责评估Actor的表现。它学习一个价值函数(如 Q(s, a) 或 V(s)),用来判断当前状态(或状态-动作对)的好坏,并为Actor的更新提供“方向指导”。
    • 输出:一个参数化的策略函数 π(a|s; θ)。
posted @ 2025-08-31 20:16  最爱丁珰  阅读(26)  评论(0)    收藏  举报