🍵 论文阅读 - 随笔分类 - MoonOut

LLM | multi-turn 任务下的 RL 微调：RAGEN, ArCHer, GiGPO, VinePPO

摘要：最近读了一些在多轮（multi-turn）任务上用 RL 微调 LLM 的文章，记录阅读笔记。阅读全文

posted @ 2026-01-03 16:54 MoonOut 阅读(27) 评论(0) 推荐(0)

PbRL | 近两年论文阅读的不完全总结

摘要：存档，博士生资格考试的 20 篇文献。阅读全文

posted @ 2025-11-29 15:04 MoonOut 阅读(223) 评论(0) 推荐(2)

MORL | Envelope Q-Learning：有收敛性保证的 MORL 算法

摘要：EQL 将单目标的 bellman 算子拓展到多目标 RL 上，并复刻了 value iteration 的收敛性保证。阅读全文

posted @ 2025-11-22 21:18 MoonOut 阅读(106) 评论(0) 推荐(1)

数据中心 + 事件驱动优化：面向数据中心绿色可靠运行的强化学习方法

摘要：贾庆山老师团队的事件驱动优化 + 数据中心工作。阅读全文

posted @ 2025-11-22 16:10 MoonOut 阅读(22) 评论(0) 推荐(0)

Skill Discovery | RGSD：基于高质量参考轨迹，预训练 skill space

摘要：① 用对比学习把参考轨迹的 embedding 尽可能拉远，② 使用 DIAYN reward 同时做模仿学习和 skill discovery。阅读全文

posted @ 2025-10-31 00:50 MoonOut 阅读(82) 评论(0) 推荐(1)

Skill Discovery | METRA：让策略探索 state 的紧凑 embedding space

摘要：为 state space 训练一个紧凑的 embedding space，使得 embedding 间的距离与 temporal distance 相匹配，然后让 policy 尽可能覆盖 embedding space。阅读全文

posted @ 2025-07-18 23:32 MoonOut 阅读(231) 评论(0) 推荐(0)

Skill Discovery | LGSD：用描述 state 的语言 embedding 的距离，作为 metra 的 d(x,y) 距离约束

摘要：用语义距离 d_lang(x,y) = cos_sim[ l(s_1), l(s_2)] ，来作为 metra 的 1-Lipschitz 约束。阅读全文

posted @ 2025-07-16 17:50 MoonOut 阅读(208) 评论(0) 推荐(0)

Skill Discovery | FoG：使用 LLM / CLIP 给出 dodont 权重，以引导 agent 安全探索

摘要：使用 LLM / CLIP 模型，输出 state / pixel observation 与人类意图的匹配程度，作为 dodont 的加权权重。阅读全文

posted @ 2025-07-15 20:34 MoonOut 阅读(82) 评论(0) 推荐(0)

Skill Discovery | DoDont：使用 do + don't 示例视频，引导 agent 学习人类期望的 skill

摘要：dodont 将好坏行为的分类器 p hat 融入了 metra 框架里，因此看起来很有直觉。阅读全文

posted @ 2025-07-14 12:38 MoonOut 阅读(271) 评论(0) 推荐(1)

RL | AIR-DREAM Lab 最新论文的速读

摘要：偶然看到了 AIR-DREAM Lab 的主页，读一下。阅读全文

posted @ 2025-06-13 22:15 MoonOut 阅读(126) 评论(0) 推荐(0)

最近读的 MARL 文章

摘要：（一时半会写不完了）阅读全文

posted @ 2025-05-11 17:43 MoonOut 阅读(172) 评论(0) 推荐(0)

RL · Exploration | ETD：使用时序距离构造 intrinsic reward，鼓励 agent 探索

摘要：鼓励 agent 探索与当前 episode 历史在到达时间（temporal distance）上较远的状态。阅读全文

posted @ 2025-04-11 23:40 MoonOut 阅读(231) 评论(1) 推荐(0)

LLM · Agent | 通过推断别人身份 + 别人对自己说话的看法，让 agent 在阿瓦隆中欺骗

摘要：这篇工作或许为需要隐藏身份和欺骗的游戏，提供了一个有效的 prompt 模板。阅读全文

posted @ 2025-03-10 18:03 MoonOut 阅读(117) 评论(0) 推荐(0)

LLM · Agent | 使用 LLM 的通识决策能力，玩星际争霸

摘要：这篇工作或许可以作为一个即时战略游戏的 prompt 参考模板。阅读全文

posted @ 2025-03-10 16:46 MoonOut 阅读(187) 评论(0) 推荐(0)

LLM · Agent | 记忆模块 + 交流模块，让 agent 合作完成复杂任务

摘要：感觉性能好的关键原因：1. prompt 写得好，可以高效沟通；2. agent 记忆的信息形式很简洁。阅读全文

posted @ 2025-03-10 16:22 MoonOut 阅读(530) 评论(0) 推荐(0)

LLM · RL | Plan4MC：使用有向无环图 high-level planning + 基于 RL 执行 low-level policy

摘要：这篇文章使用 LLM 生成了各种 MineCraft 的 skill，但没有利用 LLM 的通识能力，感觉不算 LLM agent 的工作。阅读全文

posted @ 2025-03-10 15:05 MoonOut 阅读(264) 评论(0) 推荐(0)

LLM · Agent | 使用 LLM agent 玩各种游戏

摘要：读了一些 LLM agent 玩各种游戏的论文。阅读全文

posted @ 2025-03-10 13:57 MoonOut 阅读(537) 评论(0) 推荐(0)

offline RL · PbRL | LiRE：构造 A>B>C 的 RLT 列表，得到更多 preference 数据

摘要：LiRE 的主要贡献（故事）：1. 构造 A>B>C 的 RLT，利用二阶偏好信息；2. 使用线性 reward model，提升 PbRL 性能。阅读全文

posted @ 2024-11-30 16:07 MoonOut 阅读(283) 评论(0) 推荐(0)

Contrastive Learning 对比学习 | RL 学 representation 时的对比学习

摘要：在 RL 的 representation learning 中，应用对比学习思想和 InfoNCE loss。阅读全文

posted @ 2024-11-26 12:24 MoonOut 阅读(668) 评论(0) 推荐(0)

PbRL | Christiano 2017 年的开山之作，以及 Preference PPO / PrefPPO

摘要：Deep reinforcement learning from human preferences 论文阅读，以及 PrefPPO 算法阅读。阅读全文

posted @ 2024-11-20 15:16 MoonOut 阅读(308) 评论(0) 推荐(0)

月出兮彩云归 🌙

随笔分类 - 🍵 论文阅读

公告