摘要: 因为自己实在是太好忘了💀 所以在博客存档方便查找 阅读全文
posted @ 2024-01-18 19:47 MoonOut 阅读(61) 评论(0) 推荐(0)
摘要: 存下来方便查阅。 阅读全文
posted @ 2023-06-16 10:10 MoonOut 阅读(479) 评论(1) 推荐(0)
摘要: 2025.11 | 速读文章纪录 阅读全文
posted @ 2025-11-02 12:24 MoonOut 阅读(11) 评论(0) 推荐(0)
摘要: ① 用对比学习把参考轨迹的 embedding 尽可能拉远,② 使用 DIAYN reward 同时做模仿学习和 skill discovery。 阅读全文
posted @ 2025-10-31 00:50 MoonOut 阅读(42) 评论(0) 推荐(1)
摘要: 速读一下 IJCAI 2025 的 RL 相关论文。 阅读全文
posted @ 2025-10-08 20:53 MoonOut 阅读(324) 评论(0) 推荐(0)
摘要: 2025.10 | 速读文章纪录 阅读全文
posted @ 2025-10-02 23:00 MoonOut 阅读(82) 评论(0) 推荐(0)
摘要: 2025.09 | 速读文章纪录 阅读全文
posted @ 2025-09-02 14:16 MoonOut 阅读(65) 评论(0) 推荐(0)
摘要: 2025.08 | 速读文章纪录 阅读全文
posted @ 2025-08-06 14:10 MoonOut 阅读(50) 评论(0) 推荐(0)
摘要: 为 state space 训练一个紧凑的 embedding space,使得 embedding 间的距离与 temporal distance 相匹配,然后让 policy 尽可能覆盖 embedding space。 阅读全文
posted @ 2025-07-18 23:32 MoonOut 阅读(212) 评论(0) 推荐(0)
摘要: 用语义距离 d_lang(x,y) = cos_sim[ l(s_1), l(s_2)] ,来作为 metra 的 1-Lipschitz 约束。 阅读全文
posted @ 2025-07-16 17:50 MoonOut 阅读(193) 评论(0) 推荐(0)
摘要: 使用 LLM / CLIP 模型,输出 state / pixel observation 与人类意图的匹配程度,作为 dodont 的加权权重。 阅读全文
posted @ 2025-07-15 20:34 MoonOut 阅读(54) 评论(0) 推荐(0)
摘要: dodont 将好坏行为的分类器 p hat 融入了 metra 框架里,因此看起来很有直觉。 阅读全文
posted @ 2025-07-14 12:38 MoonOut 阅读(259) 评论(0) 推荐(1)
摘要: 2025.07 | 速读文章纪录 阅读全文
posted @ 2025-07-04 11:01 MoonOut 阅读(82) 评论(0) 推荐(0)
摘要: 偶然看到了 AIR-DREAM Lab 的主页,读一下。 阅读全文
posted @ 2025-06-13 22:15 MoonOut 阅读(108) 评论(0) 推荐(0)
摘要: 考虑一步策略改进,把选 action 的概率 $\pi (a|s)$ 当作变量,$\sum \pi (a|s) = 1$ 作为约束条件,使用拉格朗日乘子 $\lambda$ 干掉。对 $V^\text{new}(s)$ 求偏导,偏导数 = 0。 阅读全文
posted @ 2025-06-07 21:31 MoonOut 阅读(159) 评论(0) 推荐(0)
摘要: 2025.06 | 速读文章纪录 阅读全文
posted @ 2025-06-01 07:14 MoonOut 阅读(92) 评论(0) 推荐(0)
摘要: (一时半会写不完了) 阅读全文
posted @ 2025-05-11 17:43 MoonOut 阅读(128) 评论(0) 推荐(0)
摘要: 2025.05 | 速读文章纪录 阅读全文
posted @ 2025-05-02 17:47 MoonOut 阅读(134) 评论(0) 推荐(0)
摘要: git fetch origin, git stash, git checkout -b [] origin/[] 阅读全文
posted @ 2025-04-15 15:32 MoonOut 阅读(20) 评论(0) 推荐(0)
摘要: 鼓励 agent 探索与当前 episode 历史在到达时间(temporal distance)上较远的状态。 阅读全文
posted @ 2025-04-11 23:40 MoonOut 阅读(194) 评论(1) 推荐(0)
摘要: 在 ubuntu 服务器上,如何创建一个 home 目录在 /data 磁盘的 sudo 用户。 阅读全文
posted @ 2025-04-02 16:52 MoonOut 阅读(404) 评论(1) 推荐(0)
摘要: 2025.04 | 速读文章纪录 阅读全文
posted @ 2025-04-01 15:10 MoonOut 阅读(170) 评论(2) 推荐(0)
摘要: 如何在 Linux(Ubuntu)系统安装 miniconda。 阅读全文
posted @ 2025-03-31 14:18 MoonOut 阅读(4237) 评论(0) 推荐(1)
摘要: 不明觉厉的记下了…… 阅读全文
posted @ 2025-03-19 00:24 MoonOut 阅读(1313) 评论(0) 推荐(1)
摘要: 这篇工作或许为需要隐藏身份和欺骗的游戏,提供了一个有效的 prompt 模板。 阅读全文
posted @ 2025-03-10 18:03 MoonOut 阅读(89) 评论(0) 推荐(0)
摘要: 这篇工作或许可以作为一个 即时战略游戏 的 prompt 参考模板。 阅读全文
posted @ 2025-03-10 16:46 MoonOut 阅读(149) 评论(0) 推荐(0)
摘要: 感觉性能好的关键原因:1. prompt 写得好,可以高效沟通;2. agent 记忆的信息形式很简洁。 阅读全文
posted @ 2025-03-10 16:22 MoonOut 阅读(480) 评论(0) 推荐(0)
摘要: 这篇文章使用 LLM 生成了各种 MineCraft 的 skill,但没有利用 LLM 的通识能力,感觉不算 LLM agent 的工作。 阅读全文
posted @ 2025-03-10 15:05 MoonOut 阅读(240) 评论(0) 推荐(0)
摘要: 读了一些 LLM agent 玩各种游戏的论文。 阅读全文
posted @ 2025-03-10 13:57 MoonOut 阅读(420) 评论(0) 推荐(0)
摘要: 2025.03 | 速读文章纪录 阅读全文
posted @ 2025-03-01 19:40 MoonOut 阅读(119) 评论(0) 推荐(1)
摘要: 询问 deepseek 泊松过程、指数分布和事件到达率的含义。 阅读全文
posted @ 2025-02-25 14:27 MoonOut 阅读(583) 评论(0) 推荐(0)
摘要: 出分后发布笔记…… 阅读全文
posted @ 2025-02-07 04:34 MoonOut 阅读(296) 评论(0) 推荐(0)
摘要: 出分后发布笔记…… 阅读全文
posted @ 2025-02-07 04:19 MoonOut 阅读(459) 评论(0) 推荐(0)
摘要: 2025.02 | 速读文章纪录 阅读全文
posted @ 2025-02-03 03:49 MoonOut 阅读(146) 评论(3) 推荐(1)
摘要: 添加 RemoteForward 127.0.0.1:7890 127.0.0.1:7890 阅读全文
posted @ 2025-01-23 22:37 MoonOut 阅读(107) 评论(0) 推荐(0)
摘要: 在 python 3.8 上安装 jax,运行 offline RL 的 IQL。 阅读全文
posted @ 2025-01-23 11:47 MoonOut 阅读(501) 评论(0) 推荐(0)
摘要: MuJoCo 210 ~ mujoco_py==2.1.2.14,MuJoCo 200 ~ mujoco_py==2.0.2.8 阅读全文
posted @ 2025-01-12 15:20 MoonOut 阅读(1696) 评论(0) 推荐(0)
摘要: 2025.01 | 速读文章纪录 阅读全文
posted @ 2025-01-02 10:26 MoonOut 阅读(121) 评论(0) 推荐(1)
摘要: ① mv source target,② ln -s 真实路径 快捷方式路径 阅读全文
posted @ 2025-01-01 22:42 MoonOut 阅读(99) 评论(0) 推荐(0)
摘要: 2024.12 | 速读文章记录 阅读全文
posted @ 2024-12-24 11:50 MoonOut 阅读(186) 评论(1) 推荐(0)
摘要: LiRE 的主要贡献(故事):1. 构造 A>B>C 的 RLT,利用二阶偏好信息;2. 使用线性 reward model,提升 PbRL 性能。 阅读全文
posted @ 2024-11-30 16:07 MoonOut 阅读(252) 评论(0) 推荐(0)
摘要: 在 RL 的 representation learning 中,应用对比学习思想和 InfoNCE loss。 阅读全文
posted @ 2024-11-26 12:24 MoonOut 阅读(623) 评论(0) 推荐(0)