Skill Discovery | FoG：使用 LLM / CLIP 给出 dodont 权重，以引导 agent 安全探索

论文标题：Guiding Skill Discovery with Foundation Models
ICLR 2025 5 5 3 3 被拒，转投 NeurIPS 2026。
最新论文链接：https://liacs.leidenuniv.nl/~plaata1/papers/4848.pdf
open review：https://openreview.net/forum?id=nZBUtzJhf8
ICLR 版 open review 论文链接：https://openreview.net/pdf?id=nZBUtzJhf8
最新 website：https://sites.google.com/view/submission-fog （可惜有一些可视化好像挂掉了）

1 fog 故事

问题：传统 skill discovery 方法只追求技能多样性，如 cheetah 学会往左往右跑，但可能学到危险行为。如摔倒、翻滚、进入禁区。
目标：让 agent 学习既多样又符合人类偏好的技能，如猎豹只奔跑不翻滚。fog 声称，现有方法缺乏灵活、低成本的人类意图注入机制。
先前方法的问题：
- 传统 skill discovery 忽视安全性，学到翻滚等危险动作。
- 传统 RL 当然可以学习安全技能，但需要人工设计奖励函数。
- dodont 也希望实现这个目标，但它需要专家示范，可能昂贵或很难构建，（并且其分类器需要 ground-truth 的 state 作为输入，所以难以处理 pixel-based 环境）。
- LGSD 利用 LLM，但仅限于 state-based 的任务，因为 LLM 无法处理 pixel-based 输入。此外，LLM 推理的计算成本很高。

2 fog method

仍然采用 dodont（本站博客）的 intrinsic reward 加权机制。
如何计算：只考虑 transition \((s,s')\) 中的 \(s'\) 。
- 状态任务：用 ChatGPT / Claude 生成 Python 函数，比如，if 猎豹角度 > 90 度: 返回 0 分。
- 像素任务：用 CLIP 计算图像与文本描述相似度，比如，比较“cheetah 正常站立”的文本 vs 翻转 cheetah 图片的相似度。

3 fog 实验

实验环境：
- 状态任务：HalfCheetah（猎豹机器人）、Ant（蚂蚁机器人），输入为低维状态向量（如关节角度、位置）
- 像素任务：Cheetah（视觉猎豹）、Quadruped（四足机器人）、Humanoid（人形机器人），输入为 64×64×3 的 RGB 图像。
baseline：
- METRA（本站博客）：skill discovery sota 方法。
- METRA+：把人工 reward 放在 metra 的 d(x,y) Lipschitz 约束位置。
- LSD：另一个 skill discovery 方法，使用欧氏距离来做 metra 的 d(x,y) Lipschitz 约束。
- DoDont（本站博客）：依赖好坏 demo，训练分类器指导学习。
- DoDont+：用 foundation model（CLIP）替代 expert，为行为标注好坏。
- FR-SAC：直接用 foundation model 的分数，作为 SAC reward。
评价指标：
- 技能质量：
- 翻转百分比（% Flips）：衡量危险行为频率，越低越好。
- 人类评估：10 个人投票，判断 skill 的行为是否符合人类意图，如"扭曲"姿势。
- 技能多样性：
- 状态覆盖度（State Coverage）：访问过的独特状态数量，越高越好。
- 安全状态覆盖（Safe Coverage）：仅在安全区域的状态覆盖，避障任务。
实验结果：
- 消除危险行为（Cheetah 不 flip）：FoG 翻转率 < 20%，METRA > 70%，DoDont > 35%，FR-SAC 的 reward 可能比较 noisy，导致 agent 完全不 work，只能静止不动。
- 避障任务（cheetah 往左走，Quadruped 往上走）：FoG 安全覆盖率达 28.5，接近METRA+ 的 30.1，METRA 仅 19.3。
- 复杂行为学习（Humanoid 扭曲）：90% 人类评估者认为 FoG 的"扭曲"姿势优于 METRA。
- 还做了一些 ablation。感觉写法不错，“fog 引入了两个超参数，我们分别对其 ablation”。
open review：
- 加 baseline：审稿人提到了 preference-based RL；更多 LLM 辅助方法，如 LLM 直接生成 reward 信号；metra 和 dodont 变体。

个人思考：1. 感觉故事还可以再包装；2. 现在 method 写成了跟 dodont 一样的 metra 套壳，感觉这样写容易出问题；3. method 相对工程，intuition 不够强。

posted @ 2025-07-15 20:34 MoonOut 阅读(54) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙

Skill Discovery | FoG：使用 LLM / CLIP 给出 dodont 权重，以引导 agent 安全探索

1 fog 故事

2 fog method

3 fog 实验

公告