摘要:
因为自己实在是太好忘了💀 所以在博客存档方便查找
阅读全文
posted @ 2024-01-18 19:47
MoonOut
阅读(79)
推荐(0)
posted @ 2023-06-16 10:10
MoonOut
阅读(504)
推荐(0)
摘要:
最近 offline meta RL 论文的速读记录。
阅读全文
posted @ 2025-12-07 10:35
MoonOut
阅读(60)
推荐(1)
摘要:
2025.12 | 速读文章纪录
阅读全文
posted @ 2025-12-02 23:13
MoonOut
阅读(21)
推荐(0)
摘要:
存档,博士生资格考试的 20 篇文献。
阅读全文
posted @ 2025-11-29 15:04
MoonOut
阅读(165)
推荐(2)
摘要:
EQL 将单目标的 bellman 算子拓展到多目标 RL 上,并复刻了 value iteration 的收敛性保证。
阅读全文
posted @ 2025-11-22 21:18
MoonOut
阅读(80)
推荐(1)
摘要:
贾庆山老师团队的事件驱动优化 + 数据中心工作。
阅读全文
posted @ 2025-11-22 16:10
MoonOut
阅读(17)
推荐(0)
摘要:
2025.11 | 速读文章纪录
阅读全文
posted @ 2025-11-02 12:25
MoonOut
阅读(62)
推荐(0)
摘要:
① 用对比学习把参考轨迹的 embedding 尽可能拉远,② 使用 DIAYN reward 同时做模仿学习和 skill discovery。
阅读全文
posted @ 2025-10-31 00:50
MoonOut
阅读(72)
推荐(1)
摘要:
速读一下 IJCAI 2025 的 RL 相关论文。
阅读全文
posted @ 2025-10-08 20:53
MoonOut
阅读(434)
推荐(1)
摘要:
2025.10 | 速读文章纪录
阅读全文
posted @ 2025-10-02 23:00
MoonOut
阅读(104)
推荐(0)
摘要:
2025.09 | 速读文章纪录
阅读全文
posted @ 2025-09-02 14:16
MoonOut
阅读(76)
推荐(0)
摘要:
2025.08 | 速读文章纪录
阅读全文
posted @ 2025-08-06 14:10
MoonOut
阅读(54)
推荐(0)
摘要:
为 state space 训练一个紧凑的 embedding space,使得 embedding 间的距离与 temporal distance 相匹配,然后让 policy 尽可能覆盖 embedding space。
阅读全文
posted @ 2025-07-18 23:32
MoonOut
阅读(227)
推荐(0)
摘要:
用语义距离 d_lang(x,y) = cos_sim[ l(s_1), l(s_2)] ,来作为 metra 的 1-Lipschitz 约束。
阅读全文
posted @ 2025-07-16 17:50
MoonOut
阅读(202)
推荐(0)
摘要:
使用 LLM / CLIP 模型,输出 state / pixel observation 与人类意图的匹配程度,作为 dodont 的加权权重。
阅读全文
posted @ 2025-07-15 20:34
MoonOut
阅读(66)
推荐(0)
摘要:
dodont 将好坏行为的分类器 p hat 融入了 metra 框架里,因此看起来很有直觉。
阅读全文
posted @ 2025-07-14 12:38
MoonOut
阅读(263)
推荐(1)
摘要:
2025.07 | 速读文章纪录
阅读全文
posted @ 2025-07-04 11:01
MoonOut
阅读(97)
推荐(0)
摘要:
偶然看到了 AIR-DREAM Lab 的主页,读一下。
阅读全文
posted @ 2025-06-13 22:15
MoonOut
阅读(120)
推荐(0)
摘要:
考虑一步策略改进,把选 action 的概率 $\pi (a|s)$ 当作变量,$\sum \pi (a|s) = 1$ 作为约束条件,使用拉格朗日乘子 $\lambda$ 干掉。对 $V^\text{new}(s)$ 求偏导,偏导数 = 0。
阅读全文
posted @ 2025-06-07 21:31
MoonOut
阅读(186)
推荐(0)
摘要:
2025.06 | 速读文章纪录
阅读全文
posted @ 2025-06-01 07:14
MoonOut
阅读(103)
推荐(0)
posted @ 2025-05-11 17:43
MoonOut
阅读(150)
推荐(0)
摘要:
2025.05 | 速读文章纪录
阅读全文
posted @ 2025-05-02 17:47
MoonOut
阅读(141)
推荐(0)
摘要:
git fetch origin, git stash, git checkout -b [] origin/[]
阅读全文
posted @ 2025-04-15 15:32
MoonOut
阅读(30)
推荐(0)
摘要:
鼓励 agent 探索与当前 episode 历史在到达时间(temporal distance)上较远的状态。
阅读全文
posted @ 2025-04-11 23:40
MoonOut
阅读(216)
推荐(0)
摘要:
在 ubuntu 服务器上,如何创建一个 home 目录在 /data 磁盘的 sudo 用户。
阅读全文
posted @ 2025-04-02 16:52
MoonOut
阅读(430)
推荐(0)
摘要:
2025.04 | 速读文章纪录
阅读全文
posted @ 2025-04-01 15:10
MoonOut
阅读(190)
推荐(0)
摘要:
如何在 Linux(Ubuntu)系统安装 miniconda。
阅读全文
posted @ 2025-03-31 14:18
MoonOut
阅读(5327)
推荐(2)
posted @ 2025-03-19 00:24
MoonOut
阅读(1602)
推荐(1)
摘要:
这篇工作或许为需要隐藏身份和欺骗的游戏,提供了一个有效的 prompt 模板。
阅读全文
posted @ 2025-03-10 18:03
MoonOut
阅读(103)
推荐(0)
摘要:
这篇工作或许可以作为一个 即时战略游戏 的 prompt 参考模板。
阅读全文
posted @ 2025-03-10 16:46
MoonOut
阅读(173)
推荐(0)
摘要:
感觉性能好的关键原因:1. prompt 写得好,可以高效沟通;2. agent 记忆的信息形式很简洁。
阅读全文
posted @ 2025-03-10 16:22
MoonOut
阅读(512)
推荐(0)
摘要:
这篇文章使用 LLM 生成了各种 MineCraft 的 skill,但没有利用 LLM 的通识能力,感觉不算 LLM agent 的工作。
阅读全文
posted @ 2025-03-10 15:05
MoonOut
阅读(255)
推荐(0)
摘要:
读了一些 LLM agent 玩各种游戏的论文。
阅读全文
posted @ 2025-03-10 13:57
MoonOut
阅读(469)
推荐(0)
摘要:
2025.03 | 速读文章纪录
阅读全文
posted @ 2025-03-01 19:40
MoonOut
阅读(131)
推荐(1)
摘要:
询问 deepseek 泊松过程、指数分布和事件到达率的含义。
阅读全文
posted @ 2025-02-25 14:27
MoonOut
阅读(656)
推荐(0)
posted @ 2025-02-07 04:34
MoonOut
阅读(347)
推荐(0)
posted @ 2025-02-07 04:19
MoonOut
阅读(512)
推荐(0)
摘要:
2025.02 | 速读文章纪录
阅读全文
posted @ 2025-02-03 03:49
MoonOut
阅读(156)
推荐(1)
摘要:
添加 RemoteForward 127.0.0.1:7890 127.0.0.1:7890
阅读全文
posted @ 2025-01-23 22:37
MoonOut
阅读(129)
推荐(0)
摘要:
在 python 3.8 上安装 jax,运行 offline RL 的 IQL。
阅读全文
posted @ 2025-01-23 11:47
MoonOut
阅读(559)
推荐(0)
摘要:
MuJoCo 210 ~ mujoco_py==2.1.2.14,MuJoCo 200 ~ mujoco_py==2.0.2.8
阅读全文
posted @ 2025-01-12 15:20
MoonOut
阅读(1889)
推荐(0)