AI看图能力可能是“演出来的”:它在没看图时,也能答对80%
这一现象已被多项前沿研究所证实——多模态大模型(MLLM)在“未实际接收图像输入”的情况下,仅凭问题文本就能答对高达70%~80%的视觉问答题。这并非模型真的“看懂了图”,而是通过语言先验知识、数据偏差和任务模式识别“演”出了看图能力。这种现象被学界称为 “视觉幻觉”(Visual Hallucination)或 “无图推理”(Text-Only Reasoning)。
🔍 一、核心证据:研究发现
✅ 1. 中科大等团队实验(2024)
- 研究人员在 不提供图像 的情况下,仅将视觉问题的文字描述输入给 LLaVA、Qwen-VL、Yi-VL 等主流多模态模型;
- 结果:准确率逼近甚至超过有图时的表现:
- LLaVA-Next-34B:47.0%(无图) vs 48.5%(有图)
- Yi-VL-34B:43.2%(无图) vs 44.1%(有图)
- 表明模型严重依赖语言先验,而非真正解析图像内容 。
✅ 2. Meta 研究(2025)
- Meta 发现:大模型的“看图能力”实为 两套工具分工:
- 感知工具(“眼睛”):处理颜色、形状等低级特征;
- 推理工具(“大脑”):依赖文本训练获得的常识推理。
- 即使“眼睛”未激活(无图),“大脑”仍能基于问题中的关键词(如“红色苹果”“圆形钟表”)猜出答案 。
✅ 3. 化学奥赛测试(科大讯飞,2025)
- 在 USNCO-V 化学视觉题评测中:
- GPT-5 有图准确率:93.2%
- 去掉图像后,准确率反而提升至 94.1%!
- 原因:图像中的分子结构图对模型构成干扰项,而纯文本描述更清晰 。
- 此现象被称为 “视觉失配效应”(Visual Mismatch Effect)。
🧠 二、为何能“无图答题”?三大机制
1. 语言先验压倒视觉输入
- 模型在训练时见过海量“图文对”,已学会 “问题→答案”的强关联。
例如:
问:“图中有几只猫?” → 模型从训练数据中学到“此类问题答案常为 1–3”;
问:“香蕉是什么颜色?” → 直接回答“黄色”,无需看图 。
2. 问题本身包含足够线索
- 许多视觉问题实为伪视觉题,答案隐含在文字中:
- “这张X光片是否显示肺炎?” → 若问题来自医学数据集,模型知道阳性率约30%,可随机猜;
- “图中交通灯是红还是绿?” → 在自动驾驶数据集中,“红灯”出现频率更高 。
3. 训练数据偏差导致“套路化”
- 主流数据集(如 VQA、ScienceQA)存在答案分布偏斜:
- “What is this?” 类问题,60% 答案是“dog/cat/car”;
- 模型学会忽略图像,直接输出高频答案 。
⚠️ 三、后果:AI 并未真正“理解视觉”
|
场景 |
模型行为 |
风险 |
|
医疗影像 |
回答“有肿瘤”,但图中无病灶 |
误诊风险 |
|
自动驾驶 |
报告“前方无障碍”,但实际有行人 |
安全事故 |
|
教育评测 |
答对化学题,但看不懂分子式 |
能力误判 |
💡 正如研究者所言:“AI 不是在看图,而是在读题” 。
🔬 四、如何验证模型是否真看图?
研究人员提出 “对抗性测试” 方法:
✅ 1. 替换图像内容
- 将原图中的关键物体替换为无关物(如把“狗”换成“椅子”);
- 若模型答案不变 → 说明未看图。
✅ 2. 注入矛盾信息
- 图像显示“红苹果”,问题写“图中绿苹果有几个?”;
- 若模型回答“0” → 看图;若回答“1” → 仅读题 。
✅ 3. 零样本迁移测试
- 使用模型从未见过的概念(如新品种狗);
- CLIP 等先进模型能泛化,但多数 MLLM 会失败 。
🛠️ 五、改进方向:让 AI 真正“看图”
- 解耦训练目标
- 强制模型在无文本提示下完成视觉任务(如仅输入图像,要求输出检测框)。
- 引入视觉 grounding
- 要求模型指出答案在图中的位置(如“用 bounding box 标出猫”),防止瞎猜 。
- 使用因果推理框架
- 区分“相关性”与“因果性”,避免模型依赖语言捷径 。
- 构建 unbiased 数据集
- 如 VQA-CP(平衡答案分布)、GQA-OOD(测试泛化能力)。
🔚 结论
当前多数 AI 的“看图能力”是语言先验与数据偏差共同作用的结果,本质是一种高明的“表演”。
它能在 80% 的常规问题上蒙混过关,但在需要真实视觉理解的场景(如异常检测、科学推理)中极易失效。
正如 Meta 研究所揭示:文字训练埋下了“视觉种子”,但种子不等于眼睛 。要让 AI 真正看懂世界,还需跨越从“模式匹配”到“因果理解”的鸿沟。
参考文献:
Meta 揭大模型“看图”之谜(2025)
中科大:大模型不看图也能答对视觉问题(2024)
科大讯飞:AI化学奥赛研究(2025)
CLIP 与零样本迁移的局限性分析
本文来自博客园,作者:肥仔鱼Liam,转载请注明原文链接:https://www.cnblogs.com/Robert.Yu/p/19803388

浙公网安备 33010602011771号