Genie 2:大规模基础世界模型的技术突破

Genie 2:大规模基础世界模型

概述

今天介绍Genie 2,这是一个基础世界模型,能够生成无限多样的可操作、可玩3D环境,用于训练和评估具身智能体。基于单张提示图像,人类或AI智能体可以使用键盘和鼠标输入进行交互。

技术背景

游戏在人工智能研究中扮演关键角色。其引人入胜的特性、独特的挑战组合和可衡量的进展,使其成为安全测试和推进AI能力的理想环境。

训练更通用的具身智能体传统上受到足够丰富多样训练环境可用性的瓶颈限制。Genie 2能够使未来智能体在无限新颖世界课程中进行训练和评估。

模型能力

基础世界模型的涌现能力

Genie 2是世界模型,意味着它可以模拟虚拟世界,包括采取任何行动(如跳跃、游泳等)的后果。它在大型视频数据集上训练,并像其他生成模型一样,展示了各种涌现能力:

  • 动作控制:Genie 2智能响应键盘按键操作,识别角色并正确移动
  • 反事实生成:从相同起始帧生成多样化轨迹
  • 长时记忆:能够记住视野外的世界部分并在重新可见时准确渲染
  • 长视频生成:实时生成新内容并保持一致性达一分钟
  • 多样化环境:创建第一人称视图、等距视图或第三人称驾驶视频
  • 3D结构:学习创建复杂3D视觉场景
  • 对象功能与交互:模拟各种对象交互,如爆破气球、开门和射击爆炸桶
  • 角色动画:学习动画各种类型角色进行不同活动
  • NPC:模拟其他智能体甚至与它们的复杂交互
  • 物理效果:模拟水效应、烟雾、重力、光照和反射

真实世界图像交互

Genie 2也可以用真实世界图像提示,能够模拟草在风中摇曳或河中水流。

快速原型设计

Genie 2使得快速原型设计多样化交互体验变得容易,使研究人员能够快速实验新颖环境来训练和测试具身AI智能体。

得益于Genie 2的分布外泛化能力,概念艺术和绘图可以转化为完全交互式环境。这使得艺术家和设计师能够快速原型设计,可以引导环境设计的创作过程,进一步加速研究。

AI智能体在世界模型中的行动

通过使用Genie 2快速为AI智能体创建丰富多样的环境,研究人员还可以生成智能体在训练期间未见过的评估任务。

SIMA智能体设计用于在一系列3D游戏世界中通过遵循自然语言指令完成任务。在此使用Genie 2生成具有两个门(蓝色和红色)的3D环境,并向SIMA智能体提供打开每个门的指令。

技术架构

Genie 2是自回归潜在扩散模型,在大型视频数据集上训练。通过自编码器后,视频中的潜在帧传递给大型变换器动态模型,使用类似于大型语言模型使用的因果掩码训练。

在推理时,Genie 2可以以自回归方式采样,逐个帧地采取单个动作和过去潜在帧。使用无分类器指导来提高动作可控性。

负责任开发

Genie 2展示了基础世界模型创建多样化3D环境和加速智能体研究的潜力。这个研究方向仍处于早期阶段,期待继续改进Genie的世界生成能力在通用性和一致性方面。

这项研究正在构建更通用的AI系统和智能体,能够理解并安全执行广泛任务,以对人们在线上和现实世界中有帮助的方式。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-11-30 15:10  CodeShare  阅读(2)  评论(0)    收藏  举报