世界模型

资料

很多人把世界模型定义为：基于某个动作，预测下一个合理的世界状态（或更长的一连串状态）。

视频生成模型就是一种体现。

这里的“下一个状态”是一系列RGB帧（通常8-10秒，最长几分钟），“动作”则是描述要做什么的文本。

训练过程涉及对数十亿小时视频像素的未来变化进行建模。

不是单纯的生成视频，而是学习物理。

世界模型本质上是视觉优先的。

相比之下，视觉语言模型（VLM）本质上是“语言优先”的。

从最早的原型（如2023年的LLaVA）开始，套路基本一致：视觉信息进入编码器，然后被路由到语言骨干网络中。

虽然随着时间推移，编码器在进步，架构变简洁，视觉也试图变得更“原生”（如Omni模型），但它仍是二等公民。

相比大语言模型（LLM）多年积累的肌肉，视觉显得微不足道。

这条路很方便。

我们知道LLM能扩展（Scale）。

我们的架构直觉、数据配方设计和基准指导（VQA），全都是针对语言优化的。

我们将看到一种新型的预训练：下一个世界状态包含的将不仅仅是RGB图像——还包含3D空间运动、本体感觉和触觉感测，这些才刚刚起步。

我们将看到一种新型的推理：视觉空间中的“思维链”，而不是语言空间中的。你可以通过模拟几何形状和接触，想象物体如何移动和碰撞来解决物理谜题，完全无需翻译成字符串。语言是瓶颈，是脚手架，而非地基。

posted @ 2026-02-04 11:15 Picassooo 阅读(14) 评论(0) 收藏举报

刷新页面返回顶部