论文速读记录 | 2025.12



目录


Offline Multitask Representation Learning for Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2403.11574
  • 来源:NeurIPS 2024。是纯理论文章,没有代码。
  • 主要内容:对于低秩 MDP(transition \(P(s,a,s') = \phi(s,a)^T \psi(s')\))中的 offline meta RL,利用给定的 N 个具有相同的 的 task 的 offline 数据集,去学习一个统一的 \(\phi\),然后对于一个给定的新 task(比如只有 transition 没有 reward 或者其他情况),进行适应。
  • 纯理论工作,看不太懂,(看起来跟目前工作也没什么关系)。

CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery

auto-curriculum learning (Jiang et al., 2021b)

  • 来源:RSD。似乎可以做自动 curriculum learning,或许是有启发性的。

Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL

  • 来源:RGSD。可能包含一个技能库,也想看。速读一下就行。

Unsupervised Skill Discovery via Recurrent Skill Training

  • 来源:合作者推荐的 skill discovery 先前工作。

Learning to Discover Skills through Guidance

  • 来源:同上。

One After Another: Learning Incremental Skills for a Changing World

  • 来源:同上。

Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching

  • 来源:同上。

Horizon Generalization in Reinforcement Learning

HIQL: Offline Goal-Conditioned RL with Latent States as Actions

VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

Contrastive Preference Learning: Learning from Human Feedback without RL

Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2502.08985
  • 来源:同学的最新工作。
  • 主要内容:
    • 这篇文章关注的 setting 是 offline multi-task MARL;特别的,agent 只在(比如说)三个人合作的场景上训练,然后就可以泛化到任意多个人合作的场景。同学讲的故事是,用 transformer 作为一个翻译器,把三个人的合作动作翻译为多个人的,感觉这个故事听起来非常好。

Rethinking Reward Modeling in Preference-based Large Language Model Alignment

  • arxiv:https://arxiv.org/abs/2411.04991
  • OpenReview:https://openreview.net/forum?id=rfdblE10qm
  • 来源:ICLR 2025 oral。
  • 主要内容:
    • 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model,而是直接训一个分类器,学习一个 (x,y) 是好的还剩坏的,然后使用分类器的概率 logit 作为 RLHF 的 reward。
    • 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\),而非把成对比较 \((x, y^+, y^-)\) 打乱(?)
    • 实验是否过于 toy(?)理论大概说了什么(?)

DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback

Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset

  • 来源:师兄的文章。

Data Center Cooling System Optimization Using Offline Reinforcement Learning

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

  • 来源:师兄偶然提到,系里其他人的文章。

Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning

Thinkless: LLM Learns When to Think

Learning to Reason without External Rewards



posted @ 2025-12-02 23:13  MoonOut  阅读(21)  评论(0)    收藏  举报