AI大模型"幻觉"从何而来？解密GPT-4、DeepSeek一本正经胡说八道的真相

你问AI一道数学题，它能给你写出完整推导过程。你给它一段乱码，它能指出哪里有逻辑漏洞。你让它分析一份合同，它能告诉你哪条条款有风险、应该怎么改。它还能帮你读文献，几百页的论文扔进去，它给你整理出核心观点和研究结论。

听起来，AI似乎真的很会"思考"。

但如果你顺着它的答案多问几句：为什么？依据是什么？有没有反例？然后，它就开始露馅了。有时候它会给出听起来合情合理、但根本不存在的事实。有时候它信誓旦旦引用一篇"论文"，你去查，这篇论文根本是子虚乌有。

AI的“思考”到底是什么？为什么会给我们子虚乌有的回答？理解AI的推理机制，你就能找到答案。

AI是怎么"思考"的

根据思维方式的不同，我们可以把AI的推理能力分为三个层次。逻辑推理，根据规则进行推导。常识推理，结合真实世界的经验知识进行推理。批判性思维，评估证据质量、识别逻辑漏洞、权衡不同立场，然后进行推理。

AI对于逻辑推理，有明确规则与定论的推理往往比较擅长。而需要根据情感经验，基于主观能动性进行的常识推理和批判性思维，就不尽如意了。

下面我们就逐一分析一下。

逻辑推理

曾经被认为AI最难攻克的领域，数学和逻辑推理，今天的大语言模型也已经逐步攻克。

2025年，数学家陶哲轩在个人博客中详细描述了他如何用AI辅助研究工作，进行复杂的数学计算和证明，包括用大模型帮他理解复杂证明的结构、用形式化验证工具Lean检查证明的每一步。GitHub Copilot 2025年发布的开发者调研显示，83%的程序员已经在用AI辅助调试代码，分析代码中的语法和逻辑错误，平均每周节省5至8小时。GPT-4在美国律师资格考试（Uniform Bar Exam）上的得分超过90%的考生；GPT-4不仅通过了美国医师资格考试（USMLE），而且分数还远超及格线。

国产模型也在迎头赶上。

智谱GLM-5在2025年MMLU（大规模多任务语言理解）基准测试中，得分92.3%，与GPT-4 Turbo持平。通义千问Qwen3在数学推理基准MATH上，得分率超过85%。2026年新发布的DeepSeek V4，在编程基准Design2Code测试中斩获92.0的高分，精准将UI草图转化为生产级代码，支持百万级tokens上下文，单次代码测试成本仅1美元，约为Claude的1/68。

AI的这些表现，让很多人惊呼：AI比人更聪明了。

当然，这个结论下得有点早。

常识推理

AI推理有个明显短板：缺乏人类常识。

这涉及AI领域一个长期悬而未决的问题：常识推理（Commonsense Reasoning）。

人类常识主要包括两类：物理常识（石头沉水里、火会烫手）和社会常识（开会迟到不礼貌、感冒了应该休息）。AI没有完整的经验积累，它能知道"水往低处流"这几个字，不理解这句话背后的经验常识。

比如，AI知道"水往低处流"这句话，但不一定能理解"人掉进河里会淹死"的全部现实含义。让AI写一个"野外生存指南"，它可能会建议你"顺着河往下游走，最终就能到达有人的地方"，这听起来很有道理，但现实只会让你越走越偏。

比如，AI知道"感冒要多喝水"，但它不一定理解为什么有人感冒了还坚持上班，因为AI不知道，或者还无法真正理解这个世界上，还有"全勤奖""绩效考核"这些现实规则，所以它给的建议总是"身体第一"，但现实世界显然不是这样运转的。

这就是hallucination（幻觉），也就是一本正经地胡说八道，而它自己完全意识不到。

前段时间有个新闻很火：有人通过豆包预订了一家饭店，结果到了饭店饭店说预约根本不存在。这一切都是豆包虚构出来的。

这种幻觉现实中比比皆是。

网上有大量用户分享过类似经历：让AI推荐一首描写秋天的古诗，它会给你列出"《秋思》《枫桥夜泊》"，然后引用其中根本不存在的诗句，语义通顺、平仄工整，但翻遍唐诗宋词也找不到出处。你问它某个历史事件的日期，它说得头头是道，再一查，史书里根本没记载。AI不是在故意骗你，它只是太擅长组织语言，以至于把"听起来正确"当成了"真的正确"。

批判性思维

AI很擅长总结和归纳，但不太擅长真正的批判性思维。

批判性思维，需要一个人调动主观能动性，从各个角度进行思辨，比如评估证据质量（这个数据来源可靠吗？样本够不够？）、识别逻辑谬误（相关不等于因果，这里诉诸权威吗？）、权衡不同立场（支持和反对的理由分别是什么，哪个更重要？）。

人在面对这类问题时，会自觉调用价值观和利益判断。一个医生面对"手术还是保守治疗"的决策，会考虑病人的年龄、身体状况、家庭意愿；一个管理者在做裁员决定时，会权衡业绩数据之外的人情因素。这些判断没有标准答案，却是真实世界运转的核心。

AI在评估证据质量这一点上表现不错，能告诉你"这个研究样本只有50人，结论可能不可靠"。但涉及到识别逻辑谬误和权衡不同立场，它能告诉你"有人这么说，也有人那么说"，但很难告诉你"这两种说法，哪个更有道理、为什么"。

造成这样的结果，一个很大的原因就是"立场中立"的代价：AI被训练成"不站队"，结果变成了"不会判断"。它能列出利弊各三条，但最终哪个利更重要、哪个弊可以接受，它给不了答案。

批判性判断需要的不仅是信息，还有立场、价值观、真实的利益权衡。

和你有什么关系？

了解了AI的推理能力，你就知道什么时候该用它，什么时候该对它保持警惕。

哪些推理任务可以交给AI？帮你梳理一份报告的论证逻辑，找出其中的漏洞和矛盾；帮你从大量资料中提取关键证据，整理成对比表格；帮你分析合同或方案的利弊，生成一份结构化的分析报告；帮你理解一段复杂的技术文档，把核心逻辑用你能看懂的方式重新解释一遍。这些，AI能做得很出色。

哪些事情不能交给AI来判断？涉及现实人情世故的判断，比如"这个客户嘴上说什么不重要，关键是看他上一次付款记录"，AI只看文本，看不到这个人；需要价值观介入的决策，比如"这件事从法律上没问题，但值不值得做"，AI能给法律分析，但给不了价值判断；真实世界的风险评估，比如"这个方案听起来逻辑完美，但落地时会遇到什么现实障碍"，AI缺乏常识，容易想当然；涉及多方利益权衡，比如"这个决定对股东有利但对员工不公平"，AI会列利弊，但最终天平倾向哪边，需要人来定。

你的定位：让AI帮你分析，但最终判断由你来做。用好AI推理的关键，不是让它替你做决定，而是让它帮你把问题想得更清楚、把证据摆得更全面、把利弊理得更清晰。拍板的那一下，永远是你的。

这就是AI推理最有趣的地方：它能在一件事上碾压人类，也能在另一件事上犯下幼儿园小朋友都不会犯的错误。

逻辑是AI的强项，但常识和判断是它的盲区。这一点，决定了AI在现阶段更合适的定位，它是一个强大的推理引擎，而不是一个可靠的决策者。用AI帮你梳理证据、发现逻辑漏洞、生成分析框架，这些它能做得很出色。但最终拍板的权力，仍然握在有真实经验、有利益相关、有价值观的人手里。

感知让AI看见了世界，推理让它开始"动脑"。但真正的分水岭，还在于另一个能力：创造。

posted @ 2026-06-19 08:00 岳小哥AI 阅读(39) 评论(0) 收藏举报

刷新页面返回顶部

hawk2026