Dreaming-in-Blocks---MineWorld-Minecraft-世界模型

Dreaming in Blocks — MineWorld，Minecraft 世界模型

原文：towardsdatascience.com/dreaming-in-blocks-mineworld-the-minecraft-world-model/

Mineworld 游戏画面，来自GitHub 仓库 [4]，许可协议为 MIT 许可。

在我成长过程中，我最喜欢的游戏无疑是 Minecraft。时至今日，我仍然记得放学后和几个朋友聚在一起，想出我们接下来要建造的新奇的红石装置。这就是为什么，当 Oasis，一个自动生成的开放 AI 世界模型在 2024 年 10 月发布时，我感到非常惊讶！使用当前技术构建反应式世界模型似乎终于成为可能，不久我们可能会拥有完全由 AI 生成的环境。

世界模型[3]，由 David HA 等人在 2018 年提出，是一种能够模拟和与完全虚拟环境交互的机器学习模型。其主要局限性在于计算效率低下，这使得与模型的实时交互成为一个重大挑战。

在这篇博客文章中，我们将介绍由微软开发的第一个开源 Minecraft 世界模型，Mineworld[1]，它能够实现快速实时交互和高可控性，与闭源版本Oasis [2]相比，资源使用更少。他们的贡献主要体现在以下三个主要点上：

Mineworld：一个实时、交互性强且高度可控的开源世界模型。
一个并行解码算法，它加快了生成过程，增加了每秒生成的帧数。
一个新颖的评估指标，用于衡量世界模型的可控性。

论文链接：arxiv.org/abs/2504.08388

代码：github.com/microsoft/mineworld

发布日期：2025 年 4 月 11 日

Mineworld，简化版

为了准确解释 Mineworld 及其方法，我们将本节分为三个小节：

问题表述：在此我们定义问题并建立训练和推理的一些基本规则。
模型架构：生成标记和输出图像所使用的模型的概述。
并行解码：作者使用一种新颖的对角解码算法[8]，将每秒生成的帧数增加了三倍。

问题表述

世界模型有两个输入类型：视频游戏画面和玩家在游戏中的动作。每种都需要不同类型的标记化才能正确使用。

给定一段 Minecraft 视频片段 𝑥，包含 𝑛 个状态/帧，图像标记化可以表述如下：

\[x=(x_{1},…,x_{n}) \]

\[t= (t_{1},…,t_{c},t_{c+1},…,t_{2c},t_{2c+1},…,t_{N}) \]

每个帧 𝑥(i) 包含 c 个补丁，每个补丁可以用一个标记 t(j) 来表示。这意味着单个帧 𝑥(i) 可以进一步描述为量化标记的集合 {t(1),t(2),…,t(c)}，其中每个 t(j) ∈ t 是一个独特的补丁，捕捉其自己的像素集。

由于每个帧包含 c 个标记，因此整个视频剪辑的标记总数为 N =n.c。

表 1. 七种不同的类别对应于 11 种不同的动作可能性。分组参考[1]

除了对视频输入进行标记化之外，玩家动作也必须进行标记化。这些标记需要捕捉到诸如摄像机视角变化、键盘输入和鼠标移动等变化。这是通过使用 11 个不同的标记来实现的，这些标记代表了输入特征的完整范围：

7 个标记用于七个互斥的动作组。相关的动作被分组到同一个类别（动作的分组在表 1 中表示）。
2 个标记用于编码摄像机角度，参考[5]
2 个标记捕获动作序列的开始和结束：和。

因此，可以如下表示捕获所有游戏状态和动作的平坦序列：

\[t= (t_{i*c+1},…,t_{(i+1)*c},[aBOS],t_{1}^{a_{i}},…,t_{9}^{a_{i}},[aEOS]) \]

我们从一个列表开始，列出每个补丁的量化 ID，从 t(1) 到 t(N)（如前一个方程所示），然后是序列开始标记，9 个动作标记，最后是序列结束标记。

模型架构

在这项工作中使用了两种主要模型：一种是基于 VQ-VAE（向量量化变分自动编码器）[6]的模型和一种基于 LLaMA 架构的 Transformer 解码器[7]。

尽管传统的变分自动编码器（VAEs）曾经是图像生成的首选架构（特别是在扩散模型广泛采用之前），但它们有一些局限性。VAEs 在数据更离散的情况下（如单词或标记）或需要高真实性和确定性时表现不佳。另一方面，VQ-VAEs 通过从连续潜在空间转移到离散空间来解决这些缺点，使它们更有结构，并提高了模型对下游任务的适用性。

在本文中，VQ-VAE 被用作视觉标记化器，将每个图像帧 𝑥 转换为其量化 ID 表示 t。使用了大小为 224×384 的图像作为输入，每个图像进一步分为 16 个不同的大小为 14×24 的补丁。这导致了一个包含单个帧中视觉信息的 336 个离散标记的序列。

另一方面，使用了 LLaMA Transformer 解码器来预测每个标记，条件是所有之前的标记。

\[f_{\theta}(t)=\prod_{i=1}^{N} p\left( t_{i}|t_{\lt i} \right) \]

Transformer 函数不仅处理基于视觉的标记，还处理动作标记。这允许建模两种模态之间的关系，使其既能作为世界模型（如论文中所述）使用，也能作为能够根据前面的标记预测动作的策略模型。

并行解码

图 2. 光栅扫描顺序生成（左）与并行对角解码（右）的比较。请注意，并行解码耗时 2.5 秒，而光栅扫描耗时约 6.8 秒。可视化由博客作者创建，灵感来源于[1]。

作者有一个明确的要求，即在正常设置下考虑一个游戏“可玩性”：它必须每秒生成足够的帧数，以便玩家能够舒适地每分钟执行平均数量的操作（APM）。根据他们的分析，平均玩家每分钟执行 150 APM。为了满足这样的需求，环境至少需要每秒运行 2~3 帧。

为了满足这一要求，作者不得不放弃典型的光栅扫描生成（从左到右、从上到下逐个生成标记）并转而利用组合对角解码。

对角解码通过在单次运行中并行执行多个图像补丁来实现。例如，如果补丁 x(i,j)在步骤 t 上被处理，那么补丁 x(i+1,j)和 x(i,j+1)将在步骤 t+1 上被处理。这种方法利用了连续帧之间的空间和时间联系，从而实现更快的生成。这种效果也可以在图 2 中更详细地看到。

然而，从顺序生成切换到并行生成引入了一些性能下降。这是由于训练和推理过程（因为在推理过程中需要并行生成）之间存在不匹配，以及 LLaMA 的因果注意力掩码的顺序性质。作者通过使用更适合他们并行解码策略的修改版注意力掩码进行微调来缓解这个问题。

关键发现与分析

为了评估，Mineworld 使用了 VPT 数据集[5]，该数据集包含记录的游戏片段及其相应的动作。VPT 包含 1000 万个视频片段，每个片段包含 16 帧。如前所述，每个帧（224×384 像素）被分割成 336 个补丁，每个补丁由一个单独的标记 t(i)表示。除了 11 个动作标记外，这导致每帧最多有 347 个标记，整个数据集的总标记数为 550 亿。

定量结果

Mineworld 主要使用两种类型的指标来比较其结果与 Oasis：视觉质量和可控性。

为了准确测量可控性，作者通过训练一个逆动力学模型（IDM）[5]，该模型的任务是预测两个连续帧之间的动作，引入了一种新颖的方法。除了达到 90.6% 的准确性外，该模型还通过向 5 位经验丰富的玩家提供包含 IDM 预测动作的 20 个游戏片段进行了进一步测试。他们对每个动作从 1 到 5 进行评分，并计算皮尔逊相关系数，获得了 p 值为 0.56，这表明存在显著的正相关。

由于逆动力学模型提供了可靠的结果，它可以用来通过将输入动作视为真实值，将 IDM 的预测动作视为由世界模型产生的动作来计算诸如准确性、F1 分数或 L1 损失等指标。由于采取的动作类型存在差异，这种评估可以进一步分为两类：

离散动作分类：图 1 中描述的 7 个动作类的精度、召回率和 F1 分数。
摄像机移动：通过将围绕 X 和 Y 轴的旋转分为 11 个离散区间，可以使用 IDM 预测来计算 L1 分数。

表 2. Mineworld 和 Oasis 三种不同设置下的比较结果。比较了每秒帧数（FPS）、精度（P）、召回率（R）、F1 分数（F1）、L1 分数（L1）、Frechet 视频距离（FVD）、学习感知图像块相似度（LPIPS）、结构相似性指数度量（SSIM）和峰值信噪比。结果来自 [1]

检查表 2 中的结果，我们发现尽管 Mineworld 只有 300M 参数，但在所有给定的指标上（无论是关于可控性还是视觉质量）都优于 Oasis。最有趣的指标是每秒帧数，Mineworld 提供的帧数是 Oasis 的两倍多，这可以实现更平滑的交互体验，可以处理 354 APM，远超过 150 APM 的硬限制。

将 Mineworld 缩放到 700M 或 1.2B 参数可以提高图像质量，但遗憾的是这导致了速度的降低，FPS 降至 3.01。这种速度的降低可能会对用户体验产生负面影响，尽管它仍然支持可玩性的 180 APM。

定性结果

图 3. 提供了三种不同的游戏案例。图像来自 [1]

进行了进一步的定性分析，以评估 Mineworld 生成精细细节、遵循动作指令和理解/重新生成上下文信息的能力。提供了初始游戏状态，以及模型要执行的一系列预定义动作。

观察图 3，我们可以得出三个结论：

顶部面板：给定一个玩家在房子里的图像和移动到门口并打开它的指令，模型成功生成了所需的动作序列。
中间面板：在一个砍木头场景中，模型展示了生成精细视觉细节的能力，正确渲染了木头破坏动画。
底部面板：一个高保真和上下文感知的案例。在左右移动相机时，我们注意到房子从视线中消失，然后又完全以相同的细节重新出现。

这三个案例展示了 Mineworld 不仅在生成高质量的游戏内容方面具有强大的能力，而且在遵循所需动作和一致地重新生成上下文信息方面也表现出色，这是 Oasis 难以做到的。

图 4. 可控性的更多案例，其中，在提供不同的输入动作时，会生成不同的游戏玩法序列。图片来自 [1]

在第二组结果中，作者通过提供完全相同的输入场景和三组不同的动作集来评估模型的可控性。模型成功生成了三个不同的输出序列，每个序列都导致一个完全不同的最终状态。

结论

在这篇博客文章中，我们探讨了 MineWorld，这是第一个用于 Minecraft 的开源世界模型。我们讨论了他们将每个帧/状态分解成多个标记，并将这些标记与代表离散动作和相机移动的 11 个额外标记相结合的方法。我们还强调了他们创新地使用逆动力学模型来计算可控性指标，以及他们新颖的并行解码算法，该算法将推理速度提高了三倍，达到平均每秒 3 帧。

在未来，将测试运行时间扩展到 16 帧窗口之外可能是有价值的。这样长的时间可以准确地测试 Mineworld 重新生成特定对象的能力，我认为这将是一个主要的障碍，阻碍此类模型的广泛应用。

感谢阅读！

想在浏览器中尝试 Minecraft 世界模型吗？试试 Oasis[2] 这里。

参考文献

[1] J. Guo, Y. Ye, T. He, H. Wu, Y. Jiang, T. Pearce 和 J. Bian, MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft (2025), arXiv 预印本 arXiv:2504.08388v1

[2] R. Wachen 和 D. Leitersdorf, Oasis (2024), oasis-ai.org/

[3] D. Ha 和 J. Schmidhuber, World Models (2018), arXiv 预印本 arXiv:1803.10122

[4] J. Guo, Y. Ye, T. He, H. Wu, Y. Jiang, T. Pearce 和 J. Bian, MineWorld (2025), GitHub 仓库: github.com/microsoft/mineworld

[5] B. Baker, I. Akkaya, P. Zhokhov, J. Huizinga, J. Tang, A. Ecoffet, B. Houghton, R. Sampedro 和 J. Clune, Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos (2022), arXiv 预印本 arXiv:2206.11795

[6] A. van den Oord, O. Vinyals 和 K. Kavukcuoglu, Neural Discrete Representation Learning (2017), arXiv 预印本 arXiv:1711.00937

[7] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, A. Joulin, E. Grave and G. Lample, LLaMA: 开放且高效的基座语言模型 (2023), arXiv 预印本 arXiv:2302.13971

[8] Y. Ye, J. Guo, H. Wu, T. He, T. Pearce, T. Rashid, K. Hofmann and J. Bian, 对角解码的快速自回归视频生成 (2025), arXiv 预印本 arXiv:2503.14070

posted @ 2026-03-27 09:51 绝不原创的飞龙阅读(18) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈