随笔分类 -  🍵 论文阅读

摘要:最近读了一些在多轮(multi-turn)任务上用 RL 微调 LLM 的文章,记录阅读笔记。 阅读全文
posted @ 2026-01-03 16:54 MoonOut 阅读(25) 评论(0) 推荐(0)
摘要:存档,博士生资格考试的 20 篇文献。 阅读全文
posted @ 2025-11-29 15:04 MoonOut 阅读(223) 评论(0) 推荐(2)
摘要:EQL 将单目标的 bellman 算子拓展到多目标 RL 上,并复刻了 value iteration 的收敛性保证。 阅读全文
posted @ 2025-11-22 21:18 MoonOut 阅读(103) 评论(0) 推荐(1)
摘要:贾庆山老师团队的事件驱动优化 + 数据中心工作。 阅读全文
posted @ 2025-11-22 16:10 MoonOut 阅读(22) 评论(0) 推荐(0)
摘要:① 用对比学习把参考轨迹的 embedding 尽可能拉远,② 使用 DIAYN reward 同时做模仿学习和 skill discovery。 阅读全文
posted @ 2025-10-31 00:50 MoonOut 阅读(82) 评论(0) 推荐(1)
摘要:为 state space 训练一个紧凑的 embedding space,使得 embedding 间的距离与 temporal distance 相匹配,然后让 policy 尽可能覆盖 embedding space。 阅读全文
posted @ 2025-07-18 23:32 MoonOut 阅读(231) 评论(0) 推荐(0)
摘要:用语义距离 d_lang(x,y) = cos_sim[ l(s_1), l(s_2)] ,来作为 metra 的 1-Lipschitz 约束。 阅读全文
posted @ 2025-07-16 17:50 MoonOut 阅读(208) 评论(0) 推荐(0)
摘要:使用 LLM / CLIP 模型,输出 state / pixel observation 与人类意图的匹配程度,作为 dodont 的加权权重。 阅读全文
posted @ 2025-07-15 20:34 MoonOut 阅读(82) 评论(0) 推荐(0)
摘要:dodont 将好坏行为的分类器 p hat 融入了 metra 框架里,因此看起来很有直觉。 阅读全文
posted @ 2025-07-14 12:38 MoonOut 阅读(271) 评论(0) 推荐(1)
摘要:偶然看到了 AIR-DREAM Lab 的主页,读一下。 阅读全文
posted @ 2025-06-13 22:15 MoonOut 阅读(126) 评论(0) 推荐(0)
摘要:(一时半会写不完了) 阅读全文
posted @ 2025-05-11 17:43 MoonOut 阅读(172) 评论(0) 推荐(0)
摘要:鼓励 agent 探索与当前 episode 历史在到达时间(temporal distance)上较远的状态。 阅读全文
posted @ 2025-04-11 23:40 MoonOut 阅读(231) 评论(1) 推荐(0)
摘要:这篇工作或许为需要隐藏身份和欺骗的游戏,提供了一个有效的 prompt 模板。 阅读全文
posted @ 2025-03-10 18:03 MoonOut 阅读(117) 评论(0) 推荐(0)
摘要:这篇工作或许可以作为一个 即时战略游戏 的 prompt 参考模板。 阅读全文
posted @ 2025-03-10 16:46 MoonOut 阅读(187) 评论(0) 推荐(0)
摘要:感觉性能好的关键原因:1. prompt 写得好,可以高效沟通;2. agent 记忆的信息形式很简洁。 阅读全文
posted @ 2025-03-10 16:22 MoonOut 阅读(528) 评论(0) 推荐(0)
摘要:这篇文章使用 LLM 生成了各种 MineCraft 的 skill,但没有利用 LLM 的通识能力,感觉不算 LLM agent 的工作。 阅读全文
posted @ 2025-03-10 15:05 MoonOut 阅读(264) 评论(0) 推荐(0)
摘要:读了一些 LLM agent 玩各种游戏的论文。 阅读全文
posted @ 2025-03-10 13:57 MoonOut 阅读(533) 评论(0) 推荐(0)
摘要:LiRE 的主要贡献(故事):1. 构造 A>B>C 的 RLT,利用二阶偏好信息;2. 使用线性 reward model,提升 PbRL 性能。 阅读全文
posted @ 2024-11-30 16:07 MoonOut 阅读(283) 评论(0) 推荐(0)
摘要:在 RL 的 representation learning 中,应用对比学习思想和 InfoNCE loss。 阅读全文
posted @ 2024-11-26 12:24 MoonOut 阅读(668) 评论(0) 推荐(0)
摘要:Deep reinforcement learning from human preferences 论文阅读,以及 PrefPPO 算法阅读。 阅读全文
posted @ 2024-11-20 15:16 MoonOut 阅读(308) 评论(0) 推荐(0)