强化学习中的奇怪概念(一)——On-policy与off-policy

转自:https://zhuanlan.zhihu.com/p/346433931

本文主要介绍和梳理on-policy/off-policy概念，文章中内容的逻辑结构(同每小节标题)如下：

策略需要有探索能力(随机性)
策略如何做到随机探索？
Off-policy方法——将收集数据当做一个单独的任务
On-policy——行为策略与目标策略相同
总结
常见困惑

困惑1：为什么有时候off-policy需要与重要性采样配合使用？
困惑2：为什么Q-Learning算法(或DQN)身为off-policy可以不用重要性采样？
困惑3：SARSA算法(on-policy)像是在进行值函数估计，为什么能收敛到最优策略？

2. 策略需要有探索能力(随机性)

抛开RL算法的细节，几乎所有RL算法可以抽象成如下的形式：

图1 RL算法的两个任务

RL算法中都需要做两件事：(1)收集数据(Data Collection)：与环境交互，收集学习样本; (2)学习(Learning)样本：学习收集到的样本中的信息，提升策略。

RL算法的最终目标是学习每种状态下最优的动作，而在训练过程中，收敛(到最优策略

2. 策略如何做到随机探索

RL算法中的策略分为确定性(Deterministic)策略与随机性(Stochastic)策略:

确定性策略
随机性策略

为了能不让思路显得凌乱，本文仅讨论Q函数构造的确定性策略及其增加随机性的方式。用Q函数构造确定性策略是一种常见的策略形式，其具体方式是：

即选取Q值最大的动作为最优动作。(注意：一般只有在动作空间离散的情况下采用这种策略，若动作空间连续上式中的最大化操作需要经过复杂的优化求解过程。)

可用

即，以

3. Off-policy方法——将收集数据当做一个单独的任务

(本文尝试另一种解释的思路，先绕过on-policy方法，直接介绍off-policy方法。)

RL算法中需要带有随机性的策略对环境进行探索获取学习样本，一种视角是：off-policy的方法将收集数据作为RL算法中单独的一个任务，它准备两个策略：行为策略(behavior policy)与目标策略(target policy)。行为策略是专门负责学习数据的获取，具有一定的随机性，总是有一定的概率选出潜在的最优动作。而目标策略借助行为策略收集到的样本以及策略提升方法提升自身性能，并最终成为最优策略。Off-policy是一种灵活的方式，如果能找到一个“聪明的”行为策略，总是能为算法提供最合适的样本，那么算法的效率将会得到提升。

我最喜欢的一句解释off-policy的话是：the learning is from the data off the target policy（引自《Reinforcement Learning An Introduction》）。也就是说RL算法中，数据来源于一个单独的用于探索的策略(不是最终要求的策略)。以Q-Learning为例，它的算法流程如下：

图2 Q-Learning算法伪代码

算法流程图不够直观，笔者将算法中的值函数更新式改写成另外一种形式后将算法用图描绘。

图3 Q-Learning算法流程

如图所示，Q-Learning数据收集部分用的是由Q函数构造的

困惑1：为什么有时候off-policy需要与重要性采样配合使用？

重要性采样是用一个概率分布的样本来估计某个随机变量关于另一个概率分布的期望。

假设已知随机策略

以off-policy Monte Carlo估计为例，它的步骤为：

(1) 由

(2) t时刻之后的轨迹序列关于

(3) t时刻之后的总回报为

(4) 按照MC方法估计状态s对应的状态值：

最后再次强调，如果需要用off-policy方法估计/预测状态值或动作值时，需要用到重要性采样。

困惑2：为什么Q-Learning算法(或DQN)身为off-policy可以不用重要性采样？

Q-Learning的思想是从任意初始化的Q函数出发，以最优贝尔曼方程为标准调整Q函数。观察Q函数在第n轮更新时的更新式：

可以看到它实际是以最优贝尔曼的估计量

4. On-policy——行为策略与目标策略相同

前面提到off-policy的特点是：the learning is from the data off the target policy，那么on-policy的特点就是：the target and the behavior polices are the same。也就是说on-policy里面只有一种策略，它既为目标策略又为行为策略。SARSA算法即为典型的on-policy的算法，下图所示为SARSA的算法示意图，可以看出算法中只有一种策略，训练的数据来自于它。

图3 SARSA算法流程

困惑3：SARSA算法(on-policy)像是在进行值函数估计，为什么能收敛到最优策略？

更新式中用到的策略也是

5. 总结

off-policy的最简单解释: the learning is from the data off the target policy。
On/off-policy的概念帮助区分训练的数据来自于哪里。
Off-policy方法中不一定非要采用重要性采样，要根据实际情况采用（比如，需要精确估计值函数时需要采用重要性采样；若是用于使值函数靠近最优值函数则不一定）。

一个人埋头学习强化学习几年，最近才想着多和别人交流。发现挺多初学者和我当初一样面对强化学习的一些奇怪的概念感到云里雾里，最典型的就是On-policy/off-policy与on-line/off-line概念傻傻分不清楚。RL的研究者构造这些概念的目的是为了更好地区分不同算法间的细节，强调不同算法之间的本质区别，但对初学者来说这些概念可能却成为学习强化学习路上的一个绊脚石。写这篇文章的目的是希望帮助对相关概念(如on/off-policy和on/off-line)有困惑的读者理解它们的本质。需要强调的是这些概念是用于理解RL算法的细节差异，不应该成为一种死板的概念，如果不能抓住它背后的本质，只是单纯知道如何区分算法是on-policy还是off-policy是on-line还是off-line没有太大意义。

posted @ 2025-06-22 19:52 有何m不可阅读(286) 评论(0) 收藏举报

刷新页面返回顶部

gongzb