10.1 最简单的演员-评论家算法:QAC
QAC与Sarsa的区别是什么?前者先更新策略再更新值,后者反之吗?
核心区别:算法家族不同
-
Sarsa (属于 Value-Based 方法)
- 目标:直接、准确地学习动作价值函数 Q(s, a)。它试图回答“在状态s下采取动作a,平均能获得多少回报”这个问题。
- 策略:策略是从Q表中衍生出来的,例如使用 ε-greedy 策略。策略本身(π)不是直接的学习对象。学习完成后,Q表就是核心知识,策略可以随时从Q表生成。
- 输出:一个Q值表格(或一个近似Q值的函数)。
-
QAC (属于 Policy-Based 方法 - Actor-Critic 架构)
- 目标:直接学习并优化策略函数 π(a|s; θ) 本身。它试图找到一个最优的“行为方式”。
- 架构:
- Actor (演员):负责执行策略。它输入状态s,输出动作的概率分布(例如,70%向左,30%向右)。它的参数 θ 被调整以最大化期望回报。
- Critic (评论家):负责评估Actor的表现。它学习一个价值函数(如 Q(s, a) 或 V(s)),用来判断当前状态(或状态-动作对)的好坏,并为Actor的更新提供“方向指导”。
- 输出:一个参数化的策略函数 π(a|s; θ)。

浙公网安备 33010602011771号