AI看图能力可能是“演出来的”:它在没看图时,也能答对80%

 

这一现象已被多项前沿研究所证实——多模态大模型(MLLM)在“未实际接收图像输入”的情况下,仅凭问题文本就能答对高达70%~80%的视觉问答题。这并非模型真的“看懂了图”,而是通过语言先验知识、数据偏差和任务模式识别“演”出了看图能力。这种现象被学界称为 视觉幻觉”(Visual Hallucination)或 无图推理”(Text-Only Reasoning)。


🔍 一、核心证据:研究发现

✅ 1. 中科大等团队实验(2024

  • 研究人员在 不提供图像 的情况下,仅将视觉问题的文字描述输入给 LLaVA、Qwen-VL、Yi-VL 等主流多模态模型;
  • 结果:准确率逼近甚至超过有图时的表现:
    • LLaVA-Next-34B:47.0%(无图) vs 48.5%(有图)
    • Yi-VL-34B:43.2%(无图) vs 44.1%(有图)
  • 表明模型严重依赖语言先验,而非真正解析图像内容 。

✅ 2. Meta 研究(2025

  • Meta 发现:大模型的“看图能力”实为 两套工具分工:
    • 感知工具(“眼睛”):处理颜色、形状等低级特征;
    • 推理工具(“大脑”):依赖文本训练获得的常识推理。
  • 即使“眼睛”未激活(无图),“大脑”仍能基于问题中的关键词(如“红色苹果”“圆形钟表”)猜出答案 。

✅ 3. 化学奥赛测试(科大讯飞,2025

  • 在 USNCO-V 化学视觉题评测中:
    • GPT-5 有图准确率:93.2%
    • 去掉图像后,准确率反而提升至 94.1%!
  • 原因:图像中的分子结构图对模型构成干扰项,而纯文本描述更清晰 。
  • 此现象被称为 “视觉失配效应”(Visual Mismatch Effect)。

🧠 二、为何能“无图答题”?三大机制

1. 语言先验压倒视觉输入

  • 模型在训练时见过海量“图文对”,已学会 “问题→答案”的强关联。
    例如:

问:“图中有几只猫?” → 模型从训练数据中学到“此类问题答案常为 1–3”;
问:“香蕉是什么颜色?” → 直接回答“黄色”,无需看图 。

2. 问题本身包含足够线索

  • 许多视觉问题实为伪视觉题,答案隐含在文字中:
    • “这张X光片是否显示肺炎?” → 若问题来自医学数据集,模型知道阳性率约30%,可随机猜;
    • “图中交通灯是红还是绿?” → 在自动驾驶数据集中,“红灯”出现频率更高 。

3. 训练数据偏差导致“套路化”

  • 主流数据集(如 VQA、ScienceQA)存在答案分布偏斜:
    • “What is this?” 类问题,60% 答案是“dog/cat/car”;
    • 模型学会忽略图像,直接输出高频答案 。

⚠️ 三、后果:AI 并未真正“理解视觉”

场景

模型行为

风险

医疗影像

回答“有肿瘤”,但图中无病灶

误诊风险

自动驾驶

报告“前方无障碍”,但实际有行人

安全事故

教育评测

答对化学题,但看不懂分子式

能力误判

💡 正如研究者所言:“AI 不是在看图,而是在读题” 。


🔬 四、如何验证模型是否真看图?

研究人员提出 对抗性测试” 方法:

✅ 1. 替换图像内容

  • 将原图中的关键物体替换为无关物(如把“狗”换成“椅子”);
  • 若模型答案不变 → 说明未看图。

✅ 2. 注入矛盾信息

  • 图像显示“红苹果”,问题写“图中绿苹果有几个?”;
  • 若模型回答“0” → 看图;若回答“1” → 仅读题 。

✅ 3. 零样本迁移测试

  • 使用模型从未见过的概念(如新品种狗);
  • CLIP 等先进模型能泛化,但多数 MLLM 会失败 。

🛠️ 五、改进方向:让 AI 真正“看图”

  1. 解耦训练目标
    • 强制模型在无文本提示下完成视觉任务(如仅输入图像,要求输出检测框)。
  2. 引入视觉 grounding
    • 要求模型指出答案在图中的位置(如“用 bounding box 标出猫”),防止瞎猜 。
  3. 使用因果推理框架
    • 区分“相关性”与“因果性”,避免模型依赖语言捷径 。
  4. 构建 unbiased 数据集
    • 如 VQA-CP(平衡答案分布)、GQA-OOD(测试泛化能力)。

🔚 结论

当前多数 AI 的“看图能力”是语言先验与数据偏差共同作用的结果,本质是一种高明的“表演”
它能在 80% 的常规问题上蒙混过关,但在需要真实视觉理解的场景(如异常检测、科学推理)中极易失效。

正如 Meta 研究所揭示:文字训练埋下了视觉种子”,但种子不等于眼睛 。要让 AI 真正看懂世界,还需跨越从“模式匹配”到“因果理解”的鸿沟。


参考文献
Meta 揭大模型“看图”之谜(2025)
中科大:大模型不看图也能答对视觉问题(2024)
科大讯飞:AI化学奥赛研究(2025)
CLIP 与零样本迁移的局限性分析

posted on 2026-03-31 18:43  肥仔鱼Liam  阅读(43)  评论(0)    收藏  举报