这一现象已被多项前沿研究所证实——多模态大模型（MLLM）在“未实际接收图像输入”的情况下，仅凭问题文本就能答对高达70%~80%的视觉问答题。这并非模型真的“看懂了图”，而是通过语言先验知识、数据偏差和任务模式识别“演”出了看图能力。这种现象被学界称为 “视觉幻觉”（Visual Hallucination）或 “无图推理”（Text-Only Reasoning）。

🔍 一、核心证据：研究发现

✅ 1. 中科大等团队实验（2024）

研究人员在不提供图像的情况下，仅将视觉问题的文字描述输入给 LLaVA、Qwen-VL、Yi-VL 等主流多模态模型；
结果：准确率逼近甚至超过有图时的表现：

LLaVA-Next-34B：47.0%（无图） vs 48.5%（有图）
Yi-VL-34B：43.2%（无图） vs 44.1%（有图）

表明模型严重依赖语言先验，而非真正解析图像内容。

✅ 2. Meta 研究（2025）

Meta 发现：大模型的“看图能力”实为两套工具分工：

感知工具（“眼睛”）：处理颜色、形状等低级特征；
推理工具（“大脑”）：依赖文本训练获得的常识推理。

即使“眼睛”未激活（无图），“大脑”仍能基于问题中的关键词（如“红色苹果”“圆形钟表”）猜出答案。

✅ 3. 化学奥赛测试（科大讯飞，2025）

在 USNCO-V 化学视觉题评测中：

GPT-5 有图准确率：93.2%
去掉图像后，准确率反而提升至 94.1%！

原因：图像中的分子结构图对模型构成干扰项，而纯文本描述更清晰。
此现象被称为 “视觉失配效应”（Visual Mismatch Effect）。

🧠 二、为何能“无图答题”？三大机制

1. 语言先验压倒视觉输入

模型在训练时见过海量“图文对”，已学会 “问题→答案”的强关联。
例如：

问：“图中有几只猫？” → 模型从训练数据中学到“此类问题答案常为 1–3”；
问：“香蕉是什么颜色？” → 直接回答“黄色”，无需看图。

2. 问题本身包含足够线索

许多视觉问题实为伪视觉题，答案隐含在文字中：

“这张X光片是否显示肺炎？” → 若问题来自医学数据集，模型知道阳性率约30%，可随机猜；
“图中交通灯是红还是绿？” → 在自动驾驶数据集中，“红灯”出现频率更高。

3. 训练数据偏差导致“套路化”

主流数据集（如 VQA、ScienceQA）存在答案分布偏斜：

“What is this?” 类问题，60% 答案是“dog/cat/car”；
模型学会忽略图像，直接输出高频答案。

⚠️ 三、后果：AI 并未真正“理解视觉”

场景	模型行为	风险
医疗影像	回答“有肿瘤”，但图中无病灶	误诊风险
自动驾驶	报告“前方无障碍”，但实际有行人	安全事故
教育评测	答对化学题，但看不懂分子式	能力误判

💡 正如研究者所言：“AI 不是在看图，而是在读题” 。

🔬 四、如何验证模型是否真看图？

研究人员提出 “对抗性测试” 方法：

✅ 1. 替换图像内容

将原图中的关键物体替换为无关物（如把“狗”换成“椅子”）；
若模型答案不变 → 说明未看图。

✅ 2. 注入矛盾信息

图像显示“红苹果”，问题写“图中绿苹果有几个？”；
若模型回答“0” → 看图；若回答“1” → 仅读题。

✅ 3. 零样本迁移测试

使用模型从未见过的概念（如新品种狗）；
CLIP 等先进模型能泛化，但多数 MLLM 会失败。

🛠️ 五、改进方向：让 AI 真正“看图”

解耦训练目标

强制模型在无文本提示下完成视觉任务（如仅输入图像，要求输出检测框）。

引入视觉 grounding

要求模型指出答案在图中的位置（如“用 bounding box 标出猫”），防止瞎猜。

使用因果推理框架

区分“相关性”与“因果性”，避免模型依赖语言捷径。

构建 unbiased 数据集

如 VQA-CP（平衡答案分布）、GQA-OOD（测试泛化能力）。

🔚 结论

当前多数 AI 的“看图能力”是语言先验与数据偏差共同作用的结果，本质是一种高明的“表演”。
它能在 80% 的常规问题上蒙混过关，但在需要真实视觉理解的场景（如异常检测、科学推理）中极易失效。

正如 Meta 研究所揭示：文字训练埋下了“视觉种子”，但种子不等于眼睛 。要让 AI 真正看懂世界，还需跨越从“模式匹配”到“因果理解”的鸿沟。

参考文献：
Meta 揭大模型“看图”之谜（2025）
中科大：大模型不看图也能答对视觉问题（2024）
科大讯飞：AI化学奥赛研究（2025）
CLIP 与零样本迁移的局限性分析

posted on 2026-03-31 18:43 肥仔鱼Liam 阅读(43) 评论(0) 收藏举报

刷新页面返回顶部

公告