论文速读记录 | 25年7月
----------------------- Decision Transformret-action space---------------
In-Context Reinforcement Learning for Variable Action Spaces
- 来源:ICML2024
- arxiv
- openreview
- Motivation: 经典ICRL架构如AD和DPT只能应用于与训练数据动作空间相同的任务,若要适应新的动作空间,需要数据重收集和重训练
- key design: 使用随机embedding 编码动作并直接预测这些embedding,移除模型输出层与动作空间架构的直接关联 (Headless-AD)
- detail:
- AD无法适应新动作空间,因为模型输出层是动作空间的概率分布,模型的分类本质,即使通过变换维度顺序来增强数据集,性能依然下降
- Headless-AD:
- Random Action Embeddings: 目标是消除对有关action space的先验知识,因为使用可学习的embedding无法满足zero-shot学习框架
self.action_map = torch.empty((num_actions, action_embed_dim), device=device)
torch.nn.init.orthogonal_(self.action_map, gain=1) - Direct Prediction of Action Embeddings:使用表征学习中的InfoNCE Contrastive Loss, 强迫model prediction与随后的action相似
- Action set Prompt: 为了解决模型对动作空间认知的缺乏,我们准备了所有可用的动作序列emdedding 作为输入Prompt
- Random Action Embeddings: 目标是消除对有关action space的先验知识,因为使用可学习的embedding无法满足zero-shot学习框架
- limitation:相同任务下(bandit, Dark-room)设置不同动作空间(维度大小),没有测试MTRL性能
-------------------Latent Action ------------------------------
Learning to Act without Actions
- 来源:ICLR2024 Spotlight
- arxiv
- Motivation: 基于大量web数据(尤其是视频)预训练模型在NLP和CV领域已经成功,但在RL领域由于action label的缺乏而受限。现有从offline demonstrations 学习的策略主要有模仿学习和离线强化学习,但二者一般都要求action或者reward label,无法仅从observations中得出
- key insight: 1,仅从obs中可以推断解释环境transition的latent action;2,基于每个transition推断的latent action,使用标准模仿学习方式可以得到一个latent-action policy
- 方法:
- 首先以完全无监督方式训练一个inverse dynamics model (IDM)预测两个连续obs之间的latent action而非真实action
- 训练一个forward dynamics model(FDM),基于\(o_t\)和latent action去预测\(o_{t+1}\)
- FDM只能看到过去,IDM可以看到过去和未来。通过让latent action成为一个infomation bottleneck, 我们避免了IDM简单地将整个未来的观测值转发给FDM,迫使其学会state transition的高度压缩的表示,这个encoding即latent action
- 整体流程:我们首先使用 IDM 将潜在动作标签分配给训练它的同一视频数据集中的每个transition。然后,我们对生成的动作观察数据集执行行为克隆,以学习潜在动作策略,该策略模仿 IDM 预测的潜在动作。最后,为了在在线环境中部署策略,我们寻求将其从潜在行动策略转变为真正行动空间中的策略(小批量带标签离线数据集监督训练得到从latent action到真实action;在线场景直接使用RL算法微调latent policty的最后一层网络从而迅速适应真实动作空间)
-------------------other RL work ----------------------------
Reinforcement Learning with Action Chunking
- 来源:Sergy Levine团队新工作
- arxiv
- 领域:offline RL TO ONline RL
- 主要内容:1、提出了一种将action chunking与TD——based RL结合的方法,Polict网络和Critic网络中原本的单步action替换为\(a_{t:t+h}\),实现无偏估计。2、使用行为约束(隐式KL约束或Wass距离)确保时间上连续的探索并利用离线数据,行为策略为flow mathing objective, 为了避免策略action chunking过度偏离离线数据集提供的先验知识