Skill Discovery | FoG:使用 LLM / CLIP 给出 dodont 权重,以引导 agent 安全探索


1 fog 故事

  • 问题:传统 skill discovery 方法只追求技能多样性,如 cheetah 学会往左往右跑,但可能学到危险行为。如摔倒、翻滚、进入禁区。
  • 目标:让 agent 学习既多样又符合人类偏好的技能,如猎豹只奔跑不翻滚。fog 声称,现有方法缺乏灵活、低成本的人类意图注入机制。
  • 先前方法的问题:
    • 传统 skill discovery 忽视安全性,学到翻滚等危险动作。
    • 传统 RL 当然可以学习安全技能,但需要人工设计奖励函数。
    • dodont 也希望实现这个目标,但它需要专家示范,可能昂贵或很难构建,(并且其分类器需要 ground-truth 的 state 作为输入,所以难以处理 pixel-based 环境)。
    • LGSD 利用 LLM,但仅限于 state-based 的任务,因为 LLM 无法处理 pixel-based 输入。此外,LLM 推理的计算成本很高。

2 fog method

  • 仍然采用 dodont(本站博客)的 intrinsic reward 加权机制。
  • 如何计算:只考虑 transition \((s,s')\) 中的 \(s'\)
    • 状态任务:用 ChatGPT / Claude 生成 Python 函数,比如,if 猎豹角度 > 90 度: 返回 0 分。
    • 像素任务:用 CLIP 计算图像与文本描述相似度,比如,比较“cheetah 正常站立”的文本 vs 翻转 cheetah 图片的相似度。

3 fog 实验

  • 实验环境:
    • 状态任务:HalfCheetah(猎豹机器人)、Ant(蚂蚁机器人),输入为低维状态向量(如关节角度、位置)
    • 像素任务:Cheetah(视觉猎豹)、Quadruped(四足机器人)、Humanoid(人形机器人),输入为 64×64×3 的 RGB 图像。
  • baseline:
    • METRA(本站博客):skill discovery sota 方法。
    • METRA+:把人工 reward 放在 metra 的 d(x,y) Lipschitz 约束位置。
    • LSD:另一个 skill discovery 方法,使用欧氏距离来做 metra 的 d(x,y) Lipschitz 约束。
    • DoDont(本站博客):依赖好坏 demo,训练分类器指导学习。
    • DoDont+:用 foundation model(CLIP)替代 expert,为行为标注好坏。
    • FR-SAC:直接用 foundation model 的分数,作为 SAC reward。
  • 评价指标:
    • 技能质量:
    • 翻转百分比(% Flips):衡量危险行为频率,越低越好。
    • 人类评估:10 个人投票,判断 skill 的行为是否符合人类意图,如"扭曲"姿势。
    • 技能多样性:
    • 状态覆盖度(State Coverage):访问过的独特状态数量,越高越好。
    • 安全状态覆盖(Safe Coverage):仅在安全区域的状态覆盖,避障任务。
  • 实验结果:
    • 消除危险行为(Cheetah 不 flip):FoG 翻转率 < 20%,METRA > 70%,DoDont > 35%,FR-SAC 的 reward 可能比较 noisy,导致 agent 完全不 work,只能静止不动。
    • 避障任务(cheetah 往左走,Quadruped 往上走):FoG 安全覆盖率达 28.5,接近METRA+ 的 30.1,METRA 仅 19.3。
    • 复杂行为学习(Humanoid 扭曲):90% 人类评估者认为 FoG 的"扭曲"姿势优于 METRA。
    • 还做了一些 ablation。感觉写法不错,“fog 引入了两个超参数,我们分别对其 ablation”。
  • open review:
    • 加 baseline:审稿人提到了 preference-based RL;更多 LLM 辅助方法,如 LLM 直接生成 reward 信号;metra 和 dodont 变体。

个人思考:1. 感觉故事还可以再包装;2. 现在 method 写成了跟 dodont 一样的 metra 套壳,感觉这样写容易出问题;3. method 相对工程,intuition 不够强。



posted @ 2025-07-15 20:34  MoonOut  阅读(54)  评论(0)    收藏  举报