论文阅读 | 离线强化学习研究综述25年1月

文章来源计算机学报2025年1月
比较新的一篇中文综述，值得一读

O Introduction

DRL应用如AlphaGo需要与环境在线交互，并且进行大量数据采样，现实世界代价昂贵且试错风险极高
2020年Levine提出离线强化学习概念（Offline Reinforcement Learning， Offline RL)
挑战：函数逼近使得算法对数据分布变动敏感，产生了分布偏移(Distribution Shift)问题
- 分布偏移：当前策略访问到的状态-动作对与数据集采样得到的状态-动作对分布不一致。
- 分布外（Out of Distribution,OOD)动作:训练数据集分布之外的动作。
机遇：基于静态数据集学习策略，避免了交互产生的成本损失，提高了RL技术在现实世界中的安全性

1 与其它RL方式的对比

离线强化学习采用静态数据集导致其无法像Online RL通过与环境交互探索新的动作和状态。为了解决这一问题，通过最小化贝尔曼均方误差学习Q值函数：

\[L(\phi)=E_{s,a,s'\sim D}[(Q_{\phi}(s,a)-(r(s,a)+\gamma E_{a'\sim \pi}[Q_{\phi '}(s',a')]))^2] \]

当最小化误差时，为了保证Q函数在动作a'下进行训练，需要当前策略\(\pi\)与行为策略\(\pi _{\beta}\)相同
- 然而在实践中实现这一点具有挑战性，因为通常追求找到一种比当前行为策略\(\pi_{\beta}\)更优越的新策略\(\pi\)，不可避免地会遇到分布偏移问题
- 离线RL对数据集要求高，需要满足多样性、准确性、覆盖性。

下面的内容将Offline RL分成3类：

无模型（Model-Free) RL
基于模型（Model-Based) RL
基于Transformer模型 RL

2 无模型RL

无模型：状态转移概率与智能体所处的环境模型是未知的。

无模型RL为了避免分布偏移引起的外推误差，对学习策略施加惩罚，受行为策略的影响，目标策略只能在有限的静态数据集中学习。
- 学习的策略在静态数据集外的泛化能力较弱，且通常较为保守。
无模型RL三种类别：
- 表征学习(Representational Learning)
- 模仿学习(Imitation Learning)
- 策略梯度(Policy Gradient)
表征学习
- 概念：将离散数据映射到一个更具信息含量和抽象性的表示空间，以提高对策略的理解和泛化。
- 特点：可以显著提高离线RL过程的计算效率；在处理非独立同分布数据时，可以有效解决函数近似过程中的累计误差问题
- （1）动作表征:将原始高维动作空间映射到低维表征空间，常采用Encoder-Decoder架构
  - 批量约束Q学习(BCQ)：基于VAE架构直接对策略进行限制。开创性工作
  - 减少自举误差积累(BEAR):引入支持匹配概念，将策略动作限制在训练分布的支持集中；使用基于采样的最大均值差异(MMD)散度约束；D4RL数据集中不如BCQ
  - 支持策略优化(SPOT)算法：采用条件变分自编码器(CVAE)来明确估计正则化项的行为密度以直接计算散度；其正则化项可以嵌入到任何off policy RL算法；性能表现较差
  - 潜在动作空间策略(PLAS):使用CVAE对行为策略进行重建，将状态映射到潜在行为空间；采用隐式约束，将策略限制在数据集支持范围内；表现较好，应用于机器人领域
  - 潜在空间优势加权策略优化(LAPO):在PLAS基础上；预训练VAE模型以重构多模态数据的行为策略；适用多模态离线RL
  - 动作的行为度量(BMA)框架:明确量化行为对环境影响的相似程度
  - 轻度保守Q学习(MCQ):通过给OOD动作赋予合适的伪Q值来进行训练；伪Q值使用最大Q值减去一个正值；基于CVAE；优于行为克隆
  - 基于互信息的离线RL(ORL-MI):采用动作嵌入表征模型对动作进行编码和解码，值函数在作用空间上泛化能力提高；
  - 保守标准化流(CNF):使用流模型替代VAE系列
  - 扩散Q学习(Diffusion-QL)：引入扩散模型，一方面鼓励扩散模型对与训练集中分布相同的动作进行采样,另一方面对Q值较高的动作进行采样;还可以用于多模态实验；性能表现优于传统算法。
  - .......太多了不再赘述，可以参考原文
- （2）状态表征：学习一种表示方法以捕捉环境中的关键信息，同时减少冗余和噪声，使得智能体能更好理解和应对不同的环境。
  - 库普曼前向Q学习(KFC)算法，利用环境动力学中的对称性来引导数据增强策略，并在训练期间对静态数据集进行扩展；基于KFC无法应对不连续的任务
  - 广义相似性函数(GSF):利用对比学习来训练策略，以捕捉给定状态下任意瞬时累积量的未来行为；提高了零样本泛化性
  - 行为先验表征(BPR):利用行为策略而不是指定特性的属性来学习状态表示；针对价值网络的隐式参数化不足问题
模仿学习：目标是学习到接近于专家的策略
- 行为克隆(BC) ：直接从专家演示的数据中学习策略
- 逆强化学习：通过专家示范样例重构奖励函数
  挑战：在离线RL中直接访问专家行为策略是很困难的，因为dataset中可能有不良行为，为了处理不良行为，基于模仿学习的离线RL方法分为：
- 直接过滤法：直接从数据集中滤除不良行为
  - 通常采用值函数和启发式方法来筛选不良行为。前者利用值函数评估每个轨迹的质量，并选择高质量的轨迹进行训练；后者利用专家演示来指导智能体在数据集中选择最优价值的行为。
  - 最佳动作模仿学习(BAIL)
  - 优势加权行为模型作为最大化后验策略优化的先验方法(ABM-MPO)
- 条件策略模型：不需要专家行为，将策略建模为一个条件概率分布，通过BC学习条件行为策略模型
  - 通过监督学习实现(RvS)
  - 策略引导的离线RL(POR)
策略梯度:通过持续计算策略参数的梯度，以使策略期望总奖赏最大化，但易陷入局部最优；常使用Actor-Critic框架;通常是最简单、最通用、最有效的离线RL方法
- 改进策略网络
  - 正则化行动家-评论家方法(BRAC):4种距离度量：MMD，KL,f,Wassertein
  - TD3+BC：训练快
  - 基于数据集约束的策略正则化(PRDC)
  - 隐式约束的优势加权回归(AWR)
  - 优势加权行动者-评论家算法(AWAC)
  - 单步(One-Step)
- 改进价值网络
  - 保守Q学习(CQL)
  - 基于Fisher信息距离的行为正则评论家(Fisher-BRC)
  - 隐式Q学习(IQL)
  - 不确定性权重行动者评论家(UWAC)
  - SAC-N
  - 集成多样化的行动者评论家(EnsembleDiversified Actor-Criti,EDAC):SOTA
  - 悲观自举的离线RL(PBRL)
  - 鲁棒离线强化学习(RORL)

研究趋势：
近几年的研究表明，在无模型离线强化学习（RL）算法中，基于表征学习的算法占比为48.4%，基于策略梯度的算法占比为35.5%，而基于模仿学习的算法占比为16.1%。这表明离线强化学习与表征学习相结合的研究方向受到了显著关注，传统的策略梯度方法仍然占据重要地位，而离线强化学习与模仿学习相结合的方法还有待进一步扩展。

3 基于模型的RL

具有环境MDP模型，包含状态、动作、状态转移模型与奖励函数.
基于模型的RL可以通过经验数据直接模拟真实环境，并且能与监督学习相结合来求解环境模型；
但由于环境模型中的策略推演需要不断在模型预测的基础上进行进一步的预测，通常伴随着复合误差，算法性能误差较大。

运行流程：从数据集中学习状态转移模型和奖励函数，将其作为真实环境并模拟转移，再通过规划生成动作。
核心问题：数据集学到的状态转移模型是针对行为策略\(\pi_{\beta}\)，并非所学到的策略\(\pi\)，分布偏移仍是一个公开的挑战性问题。但相较于无模型方法，基于模型的RL由于模型本身是离线数据分布的自然扩展和模型的构造解决了离线RL的分布转移问题，分布偏移问题得到缓解。
关键优势：利用模型的泛化能力来执行一定程度的探索，并且生成额外的训练数据以提高策略性能。

不确定性估计：允许根据对模型泛化性的信任程度，在保守和天真的离线RL方法之间进行切换
- 代表算法
  - 基于模型的离线策略优化(MOPO)
  - 基于模型的离线强化学习(MOReL)
  - 基于潜在离线模型的策略优化(LOMPO)
  - 帕累托策略池(P3):sota
策略约束
- 显式策略约束：通过约束当前的学习策略\(\pi\)，使其尽可能地逼近行为策略\(\pi_{\beta}\)
  - 行为正则化模型集成(BREMEN)
- 隐式策略约束：不依赖于对行为策略\(\pi_{\beta}\)的估计，不仅可以使用修正的目标函数对\(\pi\)进行约束，还可以基于状态从潜在空间映射到动作空间
值函数正则化:不同于策略约束，值函数正则化不对行为策略进行限制，主要思想是在目标函数上添加一个正则化项
- 代表算法
  - 基于保守离线模型的策略优化(COMBO)

近几年的研究表明，在基于模型的离线强化学习（RL）算法中，基于不确定性估计的算法占比为666.%，而基于策略约束和值函数正则化的算法分别占比16.7%。这表明在算法设计中考虑环境的不确定性具有重要意义。特别是基于不确定性估计的方法，已经成为研究的主流方向。在这一类别下，LOMPO算法表现优于其他算法。值得注意的是，在解决基于模型的离线RL问题时，这些方法通常并非相互独立，而是经常结合使用以增强效果。

4 基于Transformer模型的RL

Transformer模型在自然语言处理领域取得了巨大的成功，而RL本质上也同NLP许多问题一样属于序列决策问题。基于Transformer模型的RL方法不同于传统无模型RL采用MDP建模，其运用基于值函数如时序差分(TD)或参数化策略方法如策略梯度(PG)进行动作选择，将RL问题看成一个序列生成任务，通过神经网络直接输出动作。

因为在整个轨迹中存在多个状态和动作的锚点(Anchor)，来防止学到的策略偏离\(\pi_{\beta}\)太远，所以序列建模使得智能体不容易产生OOD动作，无需通过约束或悲观假设来解决外推误差的问题
因为离线RL无需在线收集数据和更新模型，使得Transformer模型在处理长序列问题上有很好的效果。
基于Transformer模型的离线RL方法，彻底解决了分布偏移的问题，从而将目标聚焦在解决RL中的长时序(延迟奖励)与稀疏奖励等经典问题上
示例：
DT：

按照轨迹序列划分基于Transformer模型的框架：

回报导向型(Return-To-Go):以回报为先验知识，输入当前状态后算法根据目标函数找出最有可能的动作
- Decision Transformer(DT)
- Trajectory Transformer(TT):结合Beam Search规划对候选轨迹进行搜索和优化
- Online Decision Transformer(ODT):将离线预训练与在线微调进行融合
- Generalized Decision Transformer(GDT):引入事后信息匹配(HIM)作为现有事后启发算法的统一形式
元组导向型(State-Action-Return)：在回报导向型基础上改进，明确地对状态-动作-回报整个元组进行学习
- 用于视觉的状态-状态-回报Transfomer(StARformer):该算法有单步transformer和序列transformer分别对单个步骤与整个序列进行建模。：SOTA

基于Transformer模型的离线强化学习（RL）具有较强的稳定性和一定的泛能力化，主要专注于解决传统强化学习难以应对的长序列问题。然而，这种方法也不可避免地带来了一些挑战，例如对实验配置要求较高，需要消耗大量的时间和资源。
在对比回报导向型和元组导向型方法时，元组导向型方法有助于算法更好地处理长期序列建模问题。通过考虑整个元组，该方法能够准确捕捉状态和动作之间的关联，从而高效地理解和适应环境。

5 实验环境

本部分介绍3个最大的离线RL实验环境：D4RL、RL Unplugged和NeoRL.

D4RL
D4RL实验环境包含多个数据集，涵盖了多种任务类型，具体包括：OpenAI的迷宫世界、Gym-MuJoCo、灵巧操纵任务（Adroit）、交通模拟任务（Flow）、机器人操纵任务（Franka-Kitchen）以及自动驾驶任务（CARLA）。
RL Unplugged
RL Unplugged实验环境由4个不同套件的数据集组成，具体包括：DeepMind控制套件（DeepMind Control Suite）、DeepMind运动套件（DeepMind Locomotion Suite）、电玩游戏（Arcade Learning Environment, ALE）以及现实世界强化学习套件（Real World RL Suite, RWRL）。
NeoRL
NeoRL实验环境涵盖了多个领域的数据集，包括Gym-MuJoCo任务、工业基准（Industrial Benchmark, IB）、股票交易模拟器（FinRL）以及城市管理（CityLearn）的数据集。

高质量的数据集在离线强化学习（RL）中具有重要作用。三个实验环境提供的数据集具有不同的属性特点。D4RL环境的数据集涵盖了现实世界场景中一系列具有挑战性的属性，包括狭窄且有偏见的数据分布、无方向性和多任务的数据、不可代表的行为策略、非马尔可夫行为策略、稀疏奖励、次优数据、现实领域以及部分可观测性。RL Unplugged环境的数据集属性包括稀疏奖励、次优数据、现实领域和部分可观测性。NeoRL环境的数据集属性则包括狭窄和有偏见的数据分布、现实领域以及部分可观测性。

6 离线强化学习应用与展望

异策略评估问题(OPE)：仅依靠经验对策略进行评估时，如果在相同的静态数据集上持续训练，很容易导致过拟合现象。因此，一个好的离线策略评估（OPE）方法对于离线强化学习（RL）至关重要。目前，先进的OPE方法包括重要性采样、基于模型的评估和拟合Q评估（FQE）等。然而，这些方法仍然存在一些问题，例如评估不够准确，以及在大规模数据集上难以取得良好的效果。在实际应用中，大多数离线强化学习（RL）并不依赖离线策略评估（OPE）方法来评估性能。相反，它们会在固定数量的训练步骤中，使用一组超参数进行训练，并通过上一次迭代中得到的策略，在线评估其性能质量。
有效权衡策略的累计误差：在强化学习（RL）问题中，状态-动作空间通常是极其庞大的，这使得完全存储和表达价值函数变得不切实际。因此，通常使用神经网络来近似价值函数。然而，函数近似可能会引入误差，这些误差会对学习过程产生不利影响，导致对价值函数的过高估计。在在线强化学习中，可以通过主动收集数据来修正这种高估误差。但在离线强化学习中，这些误差可能会不断累积，并对后续的迭代过程产生负面影响。目前，研究者已经通过正则化、不确定性度量和生成模型等技术来解决这一问题。
扩展离线RL方法的研究内容：由于基于无模型的离线强化学习（RL）算法发展时间较长、易于实现且资源消耗相对较少，目前离线学习领域的研究主要集中在无模型方法上。与此同时，基于模型和基于Transformer模型的算法也在迅速发展。将离线RL方法与其他技术结合，能够为解决复杂问题提供新的思路。目前，离线RL已经与元学习、分层学习、联邦学习和分布式学习等方法相结合。其中：
- 元学习能够使RL算法快速适应未见过的任务；
- 分层学习通过时序抽象表达方式为离线RL提供结构化的解决方案；
- 联邦学习使RL在保护隐私的环境中更加有效，并能够充分利用分散且多样化的数据；
- 分布式学习关注累计奖励的分布而非期望值，从而在风险敏感的领域表现出强大的性能。
符合现实世界的实验环境：离线强化学习（RL）的一个显著优势在于其对现实世界的适用性，能够减少不必要的风险并节省人力和物力成本。然而，现实世界中的数据往往复杂且难以获取，因此大多数研究和实验环境通常局限于模拟场景。

posted @ 2025-02-14 13:28 霜尘FrostDust 阅读(1409) 评论(0) 收藏举报

刷新页面返回顶部

FrostDust