机器人自然语言指令响应技术突破

基于自然语言指令的机器人逆强化学习方法

若通用家庭机器人成为现实,使用者自然希望能够用自然语言向其发出指令,例如"把脏盘子拿到厨房"。然而,自然语言指令为机器人系统控制带来了新的复杂性,因为相同的动作序列可能对应多种不同的自然语言指令("能清理餐厅的盘子吗?")。

在一篇发表于人工智能促进协会(AAAI)年会的论文中,研究人员将自然语言理解方面的经验应用于自然语言机器人控制问题。特别探讨了逆强化学习(IRL)的情况,即智能体通过观察人类示范来学习执行特定任务。该方法对标准IRL框架进行了扩展,使用自然语言而非明确唯一状态来指定智能体目标。

实验成果

在使用包含室内环境高质量3D模拟的基准数据集进行的实验中,该方法与四种主流IRL方法进行了比较:

  • 在训练环境中测试时,该方法将自然语言指定目标的达成成功率较最佳基线提高了14%
  • 在训练未见过的新测试环境中,智能体成功率提高了17%

论文还提出了一种方法,使经过训练的智能体在部署到陌生环境时能够生成针对该环境定制的训练样本。这种自监督学习使智能体的成功率额外提高了38%。

技术方法

逆强化学习框架

逆强化学习与标准强化学习不同,智能体获得一组示范(人类专家或其他智能体的示例),必须学习专家隐式最大化的奖励函数。示范表示为轨迹,包含交替的状态(环境及智能体位置)和动作序列。

常用方法是使用生成对抗网络(GAN):

  • 训练数据是一组真实轨迹,由专家建模完成要学习的目标
  • 训练设置包括创建虚假轨迹的对抗生成器
  • IRL判别器必须学会区分两者,即学习为真实轨迹分配高值、为虚假轨迹分配低值的奖励函数
  • 同时,对抗生成器尝试学习生成高奖励轨迹的策略

自然语言整合创新

该方法通过将每个轨迹与额外输入结合来改变这一设置:目标的自然语言规范。单个轨迹可能有多个自然语言目标,对应序列中的多个状态和动作,例如"沿着走廊走"、"左转"、"找到右边第一个门口"等。

在此设置中,对抗生成器生成的负面示例是具有未对齐自然语言目标的轨迹:例如轨迹规划了右转,但自然语言目标是"左转"。

数据增强技术

研究人员使用专家提供的轨迹训练了变分目标生成器,基于轨迹预测自然语言目标。该模型包括变分自编码器,可生成每个自然语言目标的高度压缩向量表示。压缩表示捕获了关于自然语言目标的语义信息,但丢失了关于目标措辞的信息。重新扩展此类表示会产生与原始目标措辞不同但保留语义内容的新自然语言目标。

这些带有重新表述的自然语言目标的轨迹被用作新的正面训练示例,增加了专家训练样本的供应,通过词汇变化提高了鲁棒性。

当来自对抗生成器的负面示例(其自然语言目标不准确)通过标签预测模型时,结果是具有正确自然语言目标的重建轨迹。这些重新标记的轨迹也被添加到正面示例供应中。

自适应环境部署

研究人员探索了另一种方法,用于在陌生环境中执行任务的智能体:

  1. 智能体首先从现有训练数据中学习新的、与目标无关的策略
  2. 该策略编码一般原则,例如不尝试穿过关闭的门
  3. 然后使用该通用策略在新环境中生成样本轨迹
  4. 这些轨迹通过变分目标生成器,为其分配自然语言目标
  5. 将这些新标记的轨迹视为新环境中的专家示例,用于更新奖励函数

这层额外的训练使智能体部署到新环境时的成功率提高了36%。这种适应性对于未来的家庭机器人至关重要,这些机器人需要适应新环境(例如家庭搬家或度假),而无需从头开始重新训练。

图表说明:研究人员训练方法示意图,交替更新自主智能体的策略(在各种状态(s)中采取的一组动作(a)以实现目标(G))和训练判别器以识别专家示例中隐含的奖励函数。判别器从正面和负面示例中学习。一些负面示例(采样轨迹)被重新标记(重新标记轨迹)并用于增强专家示例,既用于更新策略,也用于训练判别器。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-08-28 17:22  CodeShare  阅读(7)  评论(0)    收藏  举报