论文速读记录 | 2025年5月

ODT工作

Online Decision Transformer

来源ICML2022 oral
arxiv

Fully Online Decision Transformer for Reinforcement Learning

来源：umich
pdf
tlnr: 讲DT改为基于reply buffer的完全在线形式

Hyper-Decision Transformer for Efficient Online Policy Adaptation

来源 ICLR2023 poster
openreview

MTRL / VLA——action 工作

FAST: Efficient Action Tokenization for Vision-Language-Action Models

来源：RSS2025
项目
arxiv
tlnr:sergy levine团队的新作，一种简单且有效的针对VLA中action的 tokenization compression

Stop regressing: Training value functions via classification for scalable deep rl

CoRR 2024
arxiv
amago2使用了类似的技术
Motivation:scaling value-based RL methods that use regression to large networks, such as high-capacity Transformers, has proven challenging. This difficulty is in stark contrast to supervised learning: by leveraging a cross-entropy classification loss, supervised methods have scaled reliably to massive networks.
classification 比 regression表现更好的原因分析：我们的分析表明，分类交叉熵损失缓解了深度 RL 固有的几个问题，包括对嘈杂目标的鲁棒性，以及允许网络更好地利用其能力来拟合非平稳目标。

Mastering diverse domains through world models. （Dreamerv3)

Nature 2025!
paper
Dreamer v3提出的symlog-symexp变换对是一组精心设计的数学工具，用于解决强化学习中价值函数回归面临的跨数量级回报尺度问题
【论文解读】DreamerV3：更通用的世界模型 - tomsheep的文章 - 知乎
这个博客讲得太好了

Td-mpc2: Scalable, robust world models for continuous control.

ICLR2023
openreview

Multi-Task Reinforcement Learning with Mixture of Orthogonal Experts

ICLR2024
openreview

Composite Motion Learning with Task Control

SIGGRAPH2023
github

Multi-Task Reinforcement Learning with Context-based Representations

ICML2021
arxiv

OmniRL: In-Context Reinforcement Learning by Large-Scale Meta-Training in Randomized Worlds

[github](OmniRL: In-Context Reinforcement Learning by Large-Scale Meta-Training in Randomized Worlds)
项目主页：OmniRL:基于随机世界中大规模元训练的上下文强化学习
motivation(ICL)
- 对比baseline: IWL (Inweights learning)
- focus on few-shot adaptation in relatively small-scale tasks, language formations, or constrained domains:
- 批评之前的研究没有充分理解ICL，如在某些特定数据集上过度预训练会提高IWL，但会限制ICL表现（？）
Contribution
- 提出一个可以生成通过马尔可夫决策过程建模的大量任务的高效模拟器(AnyMDP)，为大规模元训练提供支持，涉及数百万个不同任务生成的数十亿个时间步长
- 不同于之前的ICRL，OmniRL使得agent可以同时利用后验反馈(如reward)和先验知识以实现上下文适应。
- 证明了任务群的规模和对长轨迹的建模对于ICRL的出现和泛化性至关重要
Related work
- (一个比较有趣的看法）对于经典的 model-based meta-RL和ICRL，states,actions, and rewards被安排成一条trajectory去组成 task adaptation 的inner loop，而预训练和元训练则被任务是outer loop.目前对于outerloop的选择有三种：
  - Reinforcement learning: $$RL^2$$、SNAIL、Amago
  - Evolutionary strategies : Meta-Learning through Hebbian Plasticity in Random Networks / Evolving decomposed plasticity rules for information-bottlenecked meta-learning
  - Imatation learning : DPT、AD （使用了RLCoach,即先进RLagent来生成演示数据，这一技术被广泛用于加速强化学习训练）
- Benchmarking In-Context RL
  - Randomizing the rewards or targets while keeping the transitions fixed
  - Modifying the transitions while keeping the targets unchanged
  - Randomizing the observations and labels without alternating the underlying transitions and rewards

Method

AnyMDP:没太看懂....似乎任意随机生成state-action-reward的任务
在contextz中提供先验知识（用p来表征该轨迹可信度，减少agent对任务的混淆）(锐评：这不是直接提供task label并且提供了episode专业度吗？明显降低了难度）
Data synthesis for imitation-only meta-training: 总结规范了ICRL中生成数据集的方法，比较有趣
- 这里借鉴了amago的multi-gamma思想
Chunk-wise meta-training: 不单步计算loss而是按块（多个时间步）计算加权loss
为了扩充上下文长度，选择采用sliding window attention on top of tramsformers with rotary position embeddings but in a segment-wise setting, 更类似与Transformer-XL

进一步探索更加高效的线性注意力层，包括：

Mamba: eg.decision mamba
RWKV6: Rwkv: Reinventing rnns for the transformer era.
Gated Slot Attention（GSA）: Gated slot attention for efficient linear-time sequence modeling （后续主要实验使用技术）

td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}


技术	核心创新	时间复杂度	与Transformer的关系	典型场景
Mamba	动态SSM + 硬件感知优化	O(N)	替代注意力层，保留其他模块	超长序列（基因组、视频）
RWKV6	RNN-Transformer混合 + 线性注意力	O(N)	统一训练（并行）与推理（序列化）优势	流式处理（语音、实时翻译）
GSA	门控Slot + 稀疏注意力	O(KN)	稀疏化注意力，动态分解输入	多对象交互（视频分析、物理仿真）

训练是采用curriculum learning procedure, 逐渐增加难度，有利于训练

Experiment
- baselines，对比了 AD,ADε和DPT，分别从online-RL、offline-RL、Imitation learning三种条件下测试（三者区别在于初始context h设置不同）
- 发现：
  - reference policy的多样化并不会带来任何优势，与DPT的理论分析一致，oracle会导致后验采样的探索策略(reference policy中也没有必要引入探索式策略）
  - Impact task diversity: as we have seen
  - Scaling up state spaces: the larger state spaces , the higher loss
  - GAS backbone表现优于基础Transformer

\mathcal{D(R,O)} Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping

ICRA 2025
arxiv
预训练对比学习，学习机器人几何不变性；引入CVAE增强生成多样性

diffusion policy工作

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

来源RSS2023
github

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

来源RSS2024
github

self-play 工作

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

arxiv
- Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Motivation
- RLVR（Reinforcement learning with verifiable rewards)训练llm仍需要人工设计的问题和回答，人工成本高且可扩展性差
- AI智能上限受制于人工数据集
领域研究
- 1、显示模仿中间推理步骤的训练方式
- 2、结果反馈(RLVR)
- 3、Absolute Zero
贡献：
- Absolute Zero：一种新的推理模型范式，其中模型同时学习定义任务以最大限度地提高可学习性，从而在不依赖外部数据的前提下通过self-play实现自我进化。
- Absolute Zero Reasoner: 提出并解决coding 任务。建立三种coding task:推断和推理程序中的一个特定元素、输入和输出三元组。对应三种推理模式：归纳、溯因与演绎。
发现
- 经AZR训练后model Coding 能力的提升可以促进推理水平(math)
- AZR的跨域转移更为明显(?不太理解）
- 模型参数越多，AZR提升越明显
- 评论作为中间计划自然而然地出现(AZR将分布计划交错为注释和代码，类似于ReAct)
- 认知行为(逐步推理、枚举和试错）都会经AZR训练出现，但不同行为在不同类型任务中尤为明显。token length也取决于推理模式( induction(增长最快），abduction、deduction）
- AZR有时产生思维链"uh-oh moment"未来需要安全研究
Methods
- Preliminaries
  - SFT:需要数据集D={(x,c*,y*)},x是query, c*是 gold chain-of-thouht,y*是gold answer，D需要人类专家或者更强的AImodel 蒸馏产生，然而对于sota model不存在蒸馏来源，且专家标注无法有效扩展。
  - RLVR：旨在解决纯模仿学习的SFT限制，数据集D={(x,y*)},允许训练模型产生自己的CoT,使用gold answer计算可验证的奖励r(y,y*).然而D仍需要蒸馏产生或者人工标注
- Absolute Zero
  - Absolute Zero 范式，在训练过程中模型同时提出任务和解决任务，并从这两阶段学习。
  - 记$\\pi\_{\\theta}$为语言模型，训练过程可用于扮演Proposer和Solver角色，也可用两个模型分别表示
  - 训练过程：
    - 初始化模型：我们初始化了两个模型（或同一个模型的两个角色），一个是提议者模型（负责生成任务），另一个是求解者模型（负责解答任务）。同时，初始化了任务缓冲区，用于存储历史生成的有效任务。(如果是同一个模型的两个角色，如何训练？按照目标函数J(θ)）
    - 提议任务：每个训练轮次开始时，提议者模型会根据当前的任务类型和历史经验(K个）生成一个新的任务。这个任务可以是代码推理任务或数学推理问题。
    $$\tau \sim \pi_{\theta}^{propose}(.|z)$$
    - 执行任务验证 (获取标准答案)：生成的任务会交由 Python 执行器验证。这一步的目的是确保任务的合法性和可行性，并得到任务的标准输出（Ground Truth），供后续评价Solver使用。
      
      $$(x,y^*)\sim f_e(. |\tau)$$
    - 求解任务：求解者模型会接收生成的任务输入部分，并尝试输出一个答案。求解者的目标是通过推理和分析来找到正确的答案。
    $$y \sim \pi_{\theta}^{solve}(.|x)$$
    - 验证解答：执行器验证求解者给出的解答是否与之前得到的标准输出匹配，并返回结果。
    - 奖励与更新：根据验证结果，系统计算出提议者和求解者的奖励，并通过强化学习算法（如 Task-Relative REINFORCE++）来更新模型的策略，使得提议者和求解者都朝着更优的方向发展。
    - 更新任务缓冲区：每次生成的有效任务（即有标准输入和输出的任务）都会被加入任务缓冲区，以便在后续的训练中作为参考或输入。
  - 奖励计算
    - Proposer 奖励：提议者奖励是根据任务的“可解性”和“学习价值”来计算的。当任务对求解者来说既不容易也不太难时，奖励较高。奖励计算公式为（论文中公式4的简化概念）：
    其中${\\bar{r}}\_{solve}$是Solver对该提议任务多次尝试的平均成功率
    - Solver奖励：求解者奖励取决于其解答的正确性。正确解答会得到正奖励，错误解答则会得到惩罚（论文中更复杂的奖励结构还包括格式惩罚等，这里简化为核心正确性奖励，对应论文公式5）：
- Absolute Zero Reasoner Training
```
     proposer奖励函数：
      $$r_e^{propose}(\\tau,\\pi\_{\\theta})$$
      Solver奖励函数：
      $$r_e^{solve}(y,y^*)$$
```
  - Set
  - Alogorithm
总结：很有工程意义的研究，推动降低数据需求，但目前还局限于特定任务如coding，迁移潜力有待进一步研究