10.1 最简单的演员-评论家算法：QAC

QAC与Sarsa的区别是什么？前者先更新策略再更新值，后者反之吗？

Sarsa (属于 Value-Based 方法)
- 目标：直接、准确地学习动作价值函数 Q(s, a)。它试图回答“在状态s下采取动作a，平均能获得多少回报”这个问题。
- 策略：策略是从Q表中衍生出来的，例如使用 ε-greedy 策略。策略本身（π）不是直接的学习对象。学习完成后，Q表就是核心知识，策略可以随时从Q表生成。
- 输出：一个Q值表格（或一个近似Q值的函数）。
QAC (属于 Policy-Based 方法 - Actor-Critic 架构)
- 目标：直接学习并优化策略函数 π(a|s; θ) 本身。它试图找到一个最优的“行为方式”。
- 架构：
  - Actor (演员)：负责执行策略。它输入状态s，输出动作的概率分布（例如，70%向左，30%向右）。它的参数 θ 被调整以最大化期望回报。
  - Critic (评论家)：负责评估Actor的表现。它学习一个价值函数（如 Q(s, a) 或 V(s)），用来判断当前状态（或状态-动作对）的好坏，并为Actor的更新提供“方向指导”。
- 输出：一个参数化的策略函数 π(a|s; θ)。

posted @ 2025-08-31 20:16 最爱丁珰阅读(69) 评论(0) 收藏举报

刷新页面返回顶部

最爱丁珰