世界模型

资料

https://mp.weixin.qq.com/s/W7sM9nxbqjcwSBWzGQNVgw?color_scheme=dark

 

定义

很多人把世界模型定义为:基于某个动作,预测下一个合理的世界状态(或更长的一连串状态)。

视频生成模型就是一种体现。

这里的“下一个状态”是一系列RGB帧(通常8-10秒,最长几分钟),“动作”则是描述要做什么的文本。

训练过程涉及对数十亿小时视频像素的未来变化进行建模。

不是单纯的生成视频,而是学习物理。

世界模型本质上是视觉优先的。

相比之下,视觉语言模型(VLM)本质上是“语言优先”的。

从最早的原型(如2023年的LLaVA)开始,套路基本一致:视觉信息进入编码器,然后被路由到语言骨干网络中。

虽然随着时间推移,编码器在进步,架构变简洁,视觉也试图变得更“原生”(如Omni模型),但它仍是二等公民。

相比大语言模型(LLM)多年积累的肌肉,视觉显得微不足道。

这条路很方便。

我们知道LLM能扩展(Scale)。

我们的架构直觉、数据配方设计和基准指导(VQA),全都是针对语言优化的。

我们将看到一种新型的预训练:下一个世界状态包含的将不仅仅是RGB图像——还包含3D空间运动、本体感觉和触觉感测,这些才刚刚起步。

我们将看到一种新型的推理:视觉空间中的“思维链”,而不是语言空间中的。你可以通过模拟几何形状和接触,想象物体如何移动和碰撞来解决物理谜题,完全无需翻译成字符串。语言是瓶颈,是脚手架,而非地基。

 

posted @ 2026-02-04 11:15  Picassooo  阅读(14)  评论(0)    收藏  举报