世界模型
资料
https://mp.weixin.qq.com/s/W7sM9nxbqjcwSBWzGQNVgw?color_scheme=dark
定义
很多人把世界模型定义为:基于某个动作,预测下一个合理的世界状态(或更长的一连串状态)。
视频生成模型就是一种体现。
这里的“下一个状态”是一系列RGB帧(通常8-10秒,最长几分钟),“动作”则是描述要做什么的文本。
训练过程涉及对数十亿小时视频像素的未来变化进行建模。
不是单纯的生成视频,而是学习物理。
世界模型本质上是视觉优先的。
相比之下,视觉语言模型(VLM)本质上是“语言优先”的。
从最早的原型(如2023年的LLaVA)开始,套路基本一致:视觉信息进入编码器,然后被路由到语言骨干网络中。
虽然随着时间推移,编码器在进步,架构变简洁,视觉也试图变得更“原生”(如Omni模型),但它仍是二等公民。
相比大语言模型(LLM)多年积累的肌肉,视觉显得微不足道。
这条路很方便。
我们知道LLM能扩展(Scale)。
我们的架构直觉、数据配方设计和基准指导(VQA),全都是针对语言优化的。
我们将看到一种新型的预训练:下一个世界状态包含的将不仅仅是RGB图像——还包含3D空间运动、本体感觉和触觉感测,这些才刚刚起步。
我们将看到一种新型的推理:视觉空间中的“思维链”,而不是语言空间中的。你可以通过模拟几何形状和接触,想象物体如何移动和碰撞来解决物理谜题,完全无需翻译成字符串。语言是瓶颈,是脚手架,而非地基。

浙公网安备 33010602011771号