AI大模型"幻觉"从何而来?解密GPT-4、DeepSeek一本正经胡说八道的真相

你问AI一道数学题,它能给你写出完整推导过程。你给它一段乱码,它能指出哪里有逻辑漏洞。你让它分析一份合同,它能告诉你哪条条款有风险、应该怎么改。它还能帮你读文献,几百页的论文扔进去,它给你整理出核心观点和研究结论。

配图_一本正经地胡说八道_20260527_v1.0

听起来,AI似乎真的很会"思考"。

但如果你顺着它的答案多问几句:为什么?依据是什么?有没有反例?然后,它就开始露馅了。有时候它会给出听起来合情合理、但根本不存在的事实。有时候它信誓旦旦引用一篇"论文",你去查,这篇论文根本是子虚乌有。

AI的“思考”到底是什么?为什么会给我们子虚乌有的回答?理解AI的推理机制,你就能找到答案。


AI是怎么"思考"的

根据思维方式的不同,我们可以把AI的推理能力分为三个层次。逻辑推理,根据规则进行推导。常识推理,结合真实世界的经验知识进行推理。批判性思维,评估证据质量、识别逻辑漏洞、权衡不同立场,然后进行推理。

配图_推理三层次_20260527_v1.0

AI对于逻辑推理,有明确规则与定论的推理往往比较擅长。而需要根据情感经验,基于主观能动性进行的常识推理和批判性思维,就不尽如意了。

下面我们就逐一分析一下。

逻辑推理

曾经被认为AI最难攻克的领域,数学和逻辑推理,今天的大语言模型也已经逐步攻克。

2025年,数学家陶哲轩在个人博客中详细描述了他如何用AI辅助研究工作,进行复杂的数学计算和证明,包括用大模型帮他理解复杂证明的结构、用形式化验证工具Lean检查证明的每一步。GitHub Copilot 2025年发布的开发者调研显示,83%的程序员已经在用AI辅助调试代码,分析代码中的语法和逻辑错误,平均每周节省5至8小时。GPT-4在美国律师资格考试(Uniform Bar Exam)上的得分超过90%的考生GPT-4不仅通过了美国医师资格考试(USMLE),而且分数还远超及格线

国产模型也在迎头赶上。

智谱GLM-5在2025年MMLU(大规模多任务语言理解)基准测试中,得分92.3%,与GPT-4 Turbo持平。通义千问Qwen3在数学推理基准MATH上,得分率超过85%。2026年新发布的DeepSeek V4,在编程基准Design2Code测试中斩获92.0的高分,精准将UI草图转化为生产级代码,支持百万级tokens上下文,单次代码测试成本仅1美元,约为Claude的1/68。

配图_逻辑推理AI大展身手_20260527_v1.0

AI的这些表现,让很多人惊呼:AI比人更聪明了。

当然,这个结论下得有点早。

常识推理

AI推理有个明显短板:缺乏人类常识

这涉及AI领域一个长期悬而未决的问题:常识推理(Commonsense Reasoning)

人类常识主要包括两类:物理常识(石头沉水里、火会烫手)和社会常识(开会迟到不礼貌、感冒了应该休息)。AI没有完整的经验积累,它能知道"水往低处流"这几个字,不理解这句话背后的经验常识。

比如,AI知道"水往低处流"这句话,但不一定能理解"人掉进河里会淹死"的全部现实含义。让AI写一个"野外生存指南",它可能会建议你"顺着河往下游走,最终就能到达有人的地方",这听起来很有道理,但现实只会让你越走越偏。

比如,AI知道"感冒要多喝水",但它不一定理解为什么有人感冒了还坚持上班,因为AI不知道,或者还无法真正理解这个世界上,还有"全勤奖""绩效考核"这些现实规则,所以它给的建议总是"身体第一",但现实世界显然不是这样运转的。

配图_常识推理AI的盲区_20260527_v1.0

这就是hallucination(幻觉),也就是一本正经地胡说八道,而它自己完全意识不到。

前段时间有个新闻很火:有人通过豆包预订了一家饭店,结果到了饭店饭店说预约根本不存在。这一切都是豆包虚构出来的。

这种幻觉现实中比比皆是。

网上有大量用户分享过类似经历:让AI推荐一首描写秋天的古诗,它会给你列出"《秋思》《枫桥夜泊》",然后引用其中根本不存在的诗句,语义通顺、平仄工整,但翻遍唐诗宋词也找不到出处。你问它某个历史事件的日期,它说得头头是道,再一查,史书里根本没记载。AI不是在故意骗你,它只是太擅长组织语言,以至于把"听起来正确"当成了"真的正确"。

批判性思维

AI很擅长总结和归纳,但不太擅长真正的批判性思维。

批判性思维,需要一个人调动主观能动性,从各个角度进行思辨,比如评估证据质量(这个数据来源可靠吗?样本够不够?)、识别逻辑谬误(相关不等于因果,这里诉诸权威吗?)、权衡不同立场(支持和反对的理由分别是什么,哪个更重要?)。

人在面对这类问题时,会自觉调用价值观和利益判断。一个医生面对"手术还是保守治疗"的决策,会考虑病人的年龄、身体状况、家庭意愿;一个管理者在做裁员决定时,会权衡业绩数据之外的人情因素。这些判断没有标准答案,却是真实世界运转的核心。

AI在评估证据质量这一点上表现不错,能告诉你"这个研究样本只有50人,结论可能不可靠"。但涉及到识别逻辑谬误和权衡不同立场,它能告诉你"有人这么说,也有人那么说",但很难告诉你"这两种说法,哪个更有道理、为什么"

造成这样的结果,一个很大的原因就是"立场中立"的代价:AI被训练成"不站队",结果变成了"不会判断"。它能列出利弊各三条,但最终哪个利更重要、哪个弊可以接受,它给不了答案。

配图_批判性思维十字路口_20260527_v1.0

批判性判断需要的不仅是信息,还有立场、价值观、真实的利益权衡。


和你有什么关系?

了解了AI的推理能力,你就知道什么时候该用它,什么时候该对它保持警惕。

哪些推理任务可以交给AI?帮你梳理一份报告的论证逻辑,找出其中的漏洞和矛盾;帮你从大量资料中提取关键证据,整理成对比表格;帮你分析合同或方案的利弊,生成一份结构化的分析报告;帮你理解一段复杂的技术文档,把核心逻辑用你能看懂的方式重新解释一遍。这些,AI能做得很出色。

哪些事情不能交给AI来判断?涉及现实人情世故的判断,比如"这个客户嘴上说什么不重要,关键是看他上一次付款记录",AI只看文本,看不到这个人;需要价值观介入的决策,比如"这件事从法律上没问题,但值不值得做",AI能给法律分析,但给不了价值判断;真实世界的风险评估,比如"这个方案听起来逻辑完美,但落地时会遇到什么现实障碍",AI缺乏常识,容易想当然;涉及多方利益权衡,比如"这个决定对股东有利但对员工不公平",AI会列利弊,但最终天平倾向哪边,需要人来定。

你的定位:让AI帮你分析,但最终判断由你来做。用好AI推理的关键,不是让它替你做决定,而是让它帮你把问题想得更清楚、把证据摆得更全面、把利弊理得更清晰。拍板的那一下,永远是你的。

配图_推理引擎不是决策者_20260527_v1.0


这就是AI推理最有趣的地方:它能在一件事上碾压人类,也能在另一件事上犯下幼儿园小朋友都不会犯的错误。

逻辑是AI的强项,但常识和判断是它的盲区。这一点,决定了AI在现阶段更合适的定位,它是一个强大的推理引擎,而不是一个可靠的决策者。用AI帮你梳理证据、发现逻辑漏洞、生成分析框架,这些它能做得很出色。但最终拍板的权力,仍然握在有真实经验、有利益相关、有价值观的人手里。

感知让AI看见了世界,推理让它开始"动脑"。但真正的分水岭,还在于另一个能力:创造

posted @ 2026-06-19 08:00  岳小哥AI  阅读(39)  评论(0)    收藏  举报