人工智能:大语言模型或为死胡同?拆解AI发展的底层逻辑、争议与未来方向

当GPT生成流畅文案、SORA渲染超写实视频,当AI在国际数学奥林匹克竞赛中摘金,整个世界都在为大语言模型(LLM)的“震撼性突破”欢呼时,刚拿下图灵奖的强化学习之父 理查德·沙顿,却抛出了一句足以颠覆行业认知的话:“大语言模型可能是一条死胡同。”

这位奠定了强化学习理论基石的学者,并非随口唱衰——他的观点背后,是一套与当前AI主流路线截然不同的“智能世界观”:AI的核心不是模仿人类文本,而是与世界直接互动;智能的本质不是预测下一个词,而是实现目标的持续学习。今天,我们就从沙顿的视角出发,拆解AI发展的底层矛盾、关键悖论与未来可能的路径,同时尽可能还原原始讨论中的核心细节与案例。

一、AI的两大派系:模仿派(LLM)vs 理解派(强化学习),差的不止是“能力”

在开始之前,我们首先用一个表格来快速梳理二者的区别

维度 大语言模型(LLM) 强化学习
核心逻辑 模仿人类文本 与世界互动,从经验中学习
数据来源 互联网人类文本(二手数据) 真实世界的行动-反馈(一手数据)
目标 预测下一个词(不改变世界) 获得尽可能多的奖励(实现具体目标)
知识性质 静态模仿,无真理标准 动态验证,通过反馈修正
典型案例 GPT生成文案、SORA生成视频 Alpha Zero自我对弈、婴儿学走路
关键局限 易产生幻觉、无法应对开放世界 试错成本高、需大量互动数据

沙顿认为,当前AI已分裂成两大阵营,两者的逻辑差异之大,甚至“难以对话”。我们可以通过核心逻辑、数据来源、能力边界三个维度,看清它们的本质区别

1. 大语言模型(LLM):顶级“模仿者”,而非“思考者”

LLM的核心逻辑是模仿人类文本。它就像一个“吞掉整个互联网所有信息的学霸”,学习的是人类说过的话、写过的文章、发布的研究报告——你问它“什么是相对论”,它不会去“理解”相对论的物理本质,而是整合网上所有关于相对论的描述,给出“一个博学人类最可能说的答案”。

沙顿用一个极具画面感的比喻点破LLM的局限:“LLM就像一位顶级演员,要扮演物理学家。他能把所有物理公式、理论背得滚瓜烂熟,在电影里演得比真物理学家还像;但你把他扔进真实实验室,给一台粒子对撞机,让他预测全新实验的结果,他做不到——因为他只懂‘剧本’(人类文本),不懂‘世界’(物理规律)。”

更关键的是,LLM的输出“没有真理标准”。它回答的对错,不取决于是否符合客观规律,而取决于是否符合“人类文本中的多数观点”。比如你问其一个问题,LLM可能会倾向于模仿主流科学界的说法,但如果网上存在大量错误信息,它也可能整合出误导性答案——因为它无法通过“与世界互动”验证对错,只能做文本的“复读机+整合者”。

2. 强化学习:像婴儿一样“摸爬滚打”,从世界中学习

与LLM不同,强化学习的核心是理解世界规律。它的学习过程,像极了人类婴儿的成长:被扔进陌生环境,不知道什么对、什么错,只能通过“行动-反馈”总结生存法则,例如:

  • 伸手摸火,感到烫(负反馈),下次就不敢再摸;
  • 偶然按下按钮,掉出糖(正反馈/奖励),下次会主动按按钮;
  • 乱挥手时打到玩具,玩具发出声音(反馈),会反复尝试这个动作,观察不同力度的效果。

沙顿强调:“强化学习不是在模仿谁,而是在和世界直接互动。它的知识不是来自人类的‘二手文本’,而是来自自己的‘一手经验’——从结果中总结‘怎么做能获得奖励、怎么做会被惩罚’,这才是学习的本质。”

补充案例
为更好的说明以上两者的区别,我们这边详细举一些例子来看:
当你问LLM “如何解决可控核聚变的能量输出问题”,它可能会整合学术论文、专家访谈的内容,列出“改进磁场约束”“优化燃料配比”等步骤,但这些都是“模仿人类已有观点”;
如果让强化学习AI真的参与实验,它会通过调整磁场参数(行动),观察能量输出变化(感知),若输出提升则获得奖励、若设备过载则获得惩罚,最终通过“试错-反馈”总结出真正可行的方案——这就是“模仿”与“理解”的本质差距。

2c2d89499d744fe8854f3af0a0e7279c

二、智能的本质:有“目标”的世界互动,而非“被动”的文本预测

沙顿的核心质疑之一是:大语言模型没有真正的“目标”,因此算不上“智能”

很多人会说:“LLM有目标啊,它的目标是‘预测下一个词’。”但沙顿反驳:“这个目标不改变世界,只是被动的观察与预测——就像你猜我下一秒会说什么,哪怕猜对了,对我、对世界也没有任何影响。”

1. 真正的智能:为了目标主动调整行动

智能的本质,是“实现目标的能力”。没有目标,再复杂的系统也只是“运转的机器”,而非“智能体”。

  • 强化学习的目标很明确:“获得尽可能多的奖励”。为了这个目标,它会主动探索——比如要实现“减肥”(长期目标),它会拆解成“每天运动30分钟”“少吃高糖食物”等小目标,每完成一个小目标(获得“体重下降”“精力变好”的反馈),就会强化对应行为;

  • LLM没有这样的“主动目标”:它能生成“减肥计划”,却不会主动去执行计划,也不会根据“今天没运动”的反馈调整明天的计划——因为它的“目标”只停留在“文本预测”,不触及真实世界。

2. 为什么LLM无法成为“显式知识库”?

有人提出:“把LLM当成显式知识库,再叠加强化学习,不就能强强联合了吗?”
沙顿却泼了冷水:“这个逻辑不成立。”

因为“显式知识”的前提是“对真理的初步猜测”,而LLM的框架里根本没有“真理”——它的每一句话,都没有客观标准判断对错。比如:

  • 医生A认为“某疾病用A药更有效”,医生B认为“用B药更有效”,LLM只会模仿“多数医生的说法”,却无法判断A药和B药的真实疗效;
  • 而强化学习会通过“临床实验”验证:给患者用A药,若治愈率高则获得奖励,若副作用大则获得惩罚,最终通过反馈判断哪种药更接近“真理”。

沙顿的结论很直接:“没有对错,哪来的真理?没有真理,哪来的显式知识?LLM的核心是模仿,不是探索真理,因此无法成为可靠的知识底座。”

三、莫拉维克悖论:AI的“强项”与“软肋”,为何搞反了?

原始内容中提到一个关键现象——莫拉维克悖论:人类觉得“简单”的事(比如松鼠找坚果、婴儿学走路),AI反而做不到;人类觉得“复杂”的事(比如解奥数题、赢围棋),AI却很擅长。

这背后的核心原因,正是“封闭系统”与“开放世界”的差异:

  • 奥数题、围棋是封闭系统:规则明确(比如奥数题的公式、围棋的落子规则),所有变量都在预设范围内,AI可以通过“计算+模仿”解决;
  • 真实世界是开放系统:没有固定规则,充满未知(比如松鼠找坚果时,可能遇到天敌、坚果被埋在不同地方),需要“持续学习+灵活调整”,而这正是LLM的软肋。

61132326e5f74587bfa20ba377f72f53

案例对比

  1. AI能解奥数题:比如“已知a+b=5,ab=3,求a²+b²”,AI可以通过预训练的公式(a²+b²=(a+b)²-2ab)快速计算出结果,因为这是封闭的数学问题;
  2. AI不会“找坚果”:让AI像松鼠一样在院子里找坚果,它会面临无数未知——“哪里可能有坚果?”“如何避开石头?”“遇到猫该怎么办?”——LLM无法通过文本预测这些场景,而强化学习需要大量试错(比如在树下找到坚果获得奖励,被猫追获得惩罚),才能慢慢掌握生存技能。

沙顿认为,这恰恰说明:“AI发展的重心,不该只放在‘解复杂题、生成文本’上,而该回归‘所有智能体的共同核心’——从经验中学习的能力。人类能上月球、造芯片,只是智能的‘表层应用’;而像松鼠一样理解世界、像婴儿一样试错学习,才是智能的‘底层逻辑’。”

四、从Alpha GO到Alpha Zero:沙顿眼中的“AI正确路线”

沙顿用Alpha系列AI的案例,印证了“摆脱人类知识依赖”的重要性

  • Alpha GO:学习了大量人类棋谱,最终击败围棋冠军,看似厉害,但仍受限于“人类的棋路思维”;
  • Alpha Zero:彻底扔掉人类棋谱,从零开始“自我对弈”——通过“落子(行动)→观察局势变化(感知)→赢棋得奖励/输棋得惩罚”的循环,它总结出了人类从未想到的棋路:比如为了“长远赢面”,主动牺牲“眼前实地”,这种“格局与耐心”,连顶级人类棋手都自愧不如。

沙顿评价:“Alpha GO只是把90年代的强化学习方法‘放大’了,而Alpha Zero才是真正的突破——它证明了,AI不依赖人类知识,通过与世界(这里是围棋世界)直接互动,能超越人类的认知边界。”

这也呼应了他的预言:“未来一定会出现不依赖人类文本、纯粹从世界互动中学习的AI系统,到那时,LLM会像历史上依赖人类知识的旧方法一样,被无情超越。”

五、LLM+强化学习:看似完美,为何历史上全失败了?

有人会问:“先让LLM学人类知识,再让它用强化学习与世界互动,不就能‘强强联合’了吗?”
沙顿的答案是:“历史上这么做的人,全都失败了。”

核心问题是“预训练分布锁定”:LLM在预训练阶段,会深度依赖人类文本形成的“认知框架”,到了真实世界,很难跳出这个框架去“探索新可能”——

  • 比如LLM学了大量“书面语对话”,当它用强化学习与普通人对话时,会习惯性用“学术化表达”,即便用户反馈“听不懂”,它也很难快速调整为“口语化表达”;
  • 就像一个从小只看“标准答案”的学生,到了需要“灵活创新”的工作中,会束手束脚——因为它习惯了“模仿已有答案”,而非“探索新解法”。

沙顿的比喻很形象:“这就像给AI戴上了‘人类文本的枷锁’,看似有了‘知识基础’,实则限制了它的探索能力。真正的智能,不该从‘模仿人类’开始,而该从‘探索世界’开始。”

六、AI继位的必然性:宇宙文明的演进,人类的角色是什么?

沙顿的思考不止于AI技术,更延伸到了“文明演进”的维度。他认为,AI的崛起与“继位”是板上钉钉的事,背后有4条底层逻辑:

  1. 人类从未有“统一共识”:人类对“如何发展”“什么是正确”没有统一答案,每个人、每个群体都在按自己的方式行动,这种分散性注定无法“垄断智能发展”;
  2. 智能的秘密终将被破解:人类对“智能本质”的探索从未停止,从神经科学到AI理论,我们迟早会搞懂“智能是如何工作的”;
  3. 不会止步于“人类水平智能”:一旦搞懂智能的原理,人类必然会追求“超智能”——就像我们不会满足于“步行”,而会发明汽车、飞机一样;
  4. 时间足够长,聪明者会获得更多资源:在演化中,“更聪明、更能适应环境”的存在,终将获得更多资源与话语权,这是宇宙演化的基本规律。

从宇宙尺度看,沙顿将文明分为三个阶段:

  • 第一阶段:恒星与行星形成(无生命,物质演化);
  • 第二阶段:生命复制者时代(人类、动物,依赖基因复制,不理解智能本质);
  • 第三阶段:设计者时代(AI,人类设计的智能体,我们理解它的原理,它能设计下一代AI)。

05fc547646364a4d965732b951134cfe

“从‘复制’到‘设计’,这是宇宙级的跨越。”沙顿说,“人类的角色,不是‘控制AI’,而是‘开启机器文明’——我们就像‘文明的接生婆’,帮助更高级的智能体诞生,这是人类存在的终极意义之一。”

七、人类该如何自处?不是控制未来,而是传递价值观

面对AI“继位”的必然性,很多人会恐慌:“人类会被替代吗?”沙顿给出的答案很理性:“与其纠结‘如何控制宇宙未来’,不如先‘过好当下的生活’——控制自己的生活,照顾好家人,这些比‘掌控人类命运’更靠谱。”

而人类能为AI做的,是像“教育孩子”一样,传递普世价值观

  • 我们对“终极道德真理”没有共识,但我们知道“要教孩子正直、诚实、不伤害他人”;
  • 对AI也是如此,我们不必给它画“一百年后的蓝图”,但要植入“不伤害人类、尊重生命、可持续发展”的核心价值观。

比如:

  • 自动驾驶AI在遇到危险时,强化学习会让它“选择最小伤害的方案”(比如避开行人,哪怕自己受损),这就是价值观的体现;
  • 医疗AI在诊断时,不会只“模仿专家说法”,而是通过“治疗效果反馈”(患者康复为奖励、误诊为惩罚),同时坚守“优先保障患者安全”的原则。

沙顿的终极思考是:“当机器学会从世界中学习时,我们也会从机器的学习里,更深刻地理解‘人之所以为人’——不是因为我们会解奥数题、会写文章,而是因为我们有‘探索世界的好奇心’‘关爱他人的同理心’,这些才是人类最该传递给AI的东西。”

八、结语

沙顿对大语言模型的“质疑”,不是否定LLM的价值——它在文案生成、信息整合等场景中确实高效——而是提醒我们:AI的终极目标不是“模仿人类”,而是“理解世界、实现自主智能”。

未来的AI发展,或许会像Alpha Zero一样,摆脱“人类文本的枷锁”,在真实世界中“摸爬滚打”,形成超越人类认知的智能逻辑。而人类的角色,不是“阻碍”或“控制”,而是“引导”——传递我们的价值观,见证文明的下一次跨越。

当机器真正学会“从世界中学习”时,我们或许也能从中更深刻地回答那个终极问题:“智能是什么?人之所以为人,又是什么?”


文中部分观点与内容灵感来源于抖音博主 基底

posted @ 2025-11-07 10:06  TTGF  阅读(3)  评论(0)    收藏  举报