VLA大模型初步认识
什么是VLA大模型?
VLA 指的是 Vision-Language-Action(视觉-语言-动作)模型。它是一种多模态大模型,其核心思想是将视觉感知(Vision)和语言理解(Language)的能力整合到一个框架中,并直接输出物理世界的动作(Action),从而控制智能体(如机器人)完成复杂任务。
你可以将其理解为 “机器人的大脑”。它让机器人能够:
看:通过摄像头等视觉传感器理解环境。
想:结合看到的画面和人类给出的自然语言指令(如“把桌上的苹果拿给我”),进行推理和规划。
做:直接输出底层的控制指令(如机械臂的关节角度、移动机器人的速度指令),来执行任务。
除了VLA大模型,我们还经常听到像LLM大模型和VLM大模型,那么这些模型的关系是什么呢,到底有什么联系呢,如果从模型的发展来看,应该是从LLM过渡到VLM最后到VLA模型,目前的VLA模型由于发展并不长久,现如今的VLA大模型都不够成熟有效,前不久的北京世界机器人大会上宇树科技的代表人物王兴兴直言当前机器人技术发展的最大难点并不是现在大家认为的现有训练数据集的不足,这只是其中一个原因,主要还是目前的机器人控制大模型框架的不成熟。
从最初的LLM大模型开始,作为输入一般都是文本输出也都是文本这么一个大模型只能基于文本数据进行一些训练同时运用于文本,后来到了VLM,这里比起LLM多了View即视觉模块,通过该模型,计算机不仅能提取文本中的信息同时也能从图像中提取信息最后输出文本内容,而到了VLA模型,这个输出就不一样了,计算机需要把得到的信息输出为一条条控制逻辑指令而非简单的文本信息,以下就是对这三个模型的详细区分。
LLM - 大语言模型
-
是什么:Large Language Model。一种专门处理和生成文本的人工智能模型。它在海量文本数据上训练,学习语言的语法、语义、知识和推理能力。
-
核心功能:文本生成、问答、翻译、摘要、代码编写等。
-
输入/输出:文本 → 文本
-
例子:ChatGPT、GPT-4(纯文本版本)、Llama、PaLM。
-
打个比方:一个学识渊博但蒙着眼睛的人。他可以和你畅谈任何话题,但看不到周围的世界。
VLM - 视觉语言模型
-
是什么:Vision-Language Model。LLM的进化版,同时理解和处理视觉(图像/视频) 和文本两种模态信息。
-
核心功能:图像描述、视觉问答(VQA)、基于文本的图像检索、图像内容分析。
-
输入/输出:(图像 + 文本)→ 文本
-
例子:GPT-4V(ision)、LLaVA、Google Gemini。
-
打个比方:一个视力极好、知识渊博的人。你给他一张图片并提问,他能描述图片内容并回答你的问题。但他只能“说”不能“做”。
VLA - 视觉-语言-动作模型
-
是什么:Vision-Language-Action Model。VLM的进一步进化,是具身智能的核心。它不仅能理解视觉和语言,还能输出物理动作来控制智能体(如机器人)。
-
核心功能:根据自然语言指令和视觉观察,直接产生控制命令(如机器人的运动轨迹、机械臂的抓取动作)。
-
输入/输出:(图像 + 文本)→ 动作
-
例子:RT-2、OpenVLA、VLA。
-
打个比方:一个完整的机器人大脑。它用“眼睛”(摄像头)看世界,用“大脑”理解你的指令(“把那个红苹果拿给我”),然后直接控制“身体”(机器人)去执行任务
维度 | LLM | VLM | VLA |
---|---|---|---|
处理模态 | 仅文本 | 视觉 + 文本 | 视觉 + 文本 + 动作 |
核心输入 | 文本提示 | 图像、文本提示 | 当前图像、文本指令、(有时包含历史观测) |
核心输出 | 文本 | 文本 | 动作(如关节角度、电机速度、离散动作token) |
代表模型 | GPT-3, Llama 2 | GPT-4V, LLaVA, Gemini | RT-2, OpenVLA |
核心能力 | 语言理解与生成 | 跨模态理解与对话 | 具身推理与控制 |
应用场景 | 聊天机器人、代码生成 | 图像描述、视觉问答 | 机器人自主操作、自动驾驶 |
评价指标 | 困惑度(PPL)、BLEU | 视觉问答准确率 | 任务成功率、执行效率 |
为什么现在的机器人都使用VLA大模型?
最核心的原因是:VLA大模型让机器人获得了“智能”——理解和推理的能力,从而能够处理未知的、复杂的开放世界任务,而不仅仅是重复预编程的动作。当前VLA肯定是目前的最优方案,但是随着后续技术的发展和算力的更新迭代,可能会出现更优的方案,目前VLA模型最大的问题就是训练数据集的不足,同时模态对其和复杂度高也是一个问题。
-
传统方法:
看到A → 执行动作X
-
VLA方法:
理解指令和场景 → 推理出目标 → 规划并执行动作
VLA的突破:通过在海量互联网数据(图文对、视频、代码)和机器人数据上训练,VLA学会了世界的常识和抽象概念。因此,它能泛化到从未见过的新物体、新环境和新指令。
-
传统方法:
看到A → 执行动作X
-
VLA方法:
理解指令和场景 → 推理出目标 → 规划并执行动作
VLA肯定不是最优方案,VLA作为上层技术最终还是依赖人车场的建模准确度