Scaling时代落幕:Ilya眼中下一代AI的关键不在模型在人类-2025-11-30

关联知识库: Scaling时代落幕:Ilya眼中下一代AI的关键不在模型在人类-2025-11-30

Scaling 时代落幕:Ilya 眼中下一代 AI 的关键,不在模型,在人类

来源InfoQ | 日期:2025-11-30 | 作者:Tina


文章摘要

作为 Safe Superintelligence Inc. 的创始人、深度学习黄金十年的亲历者和塑造者,Ilya Sutskever 在最新一次长访谈中公开宣判:单靠"把模型一味做大"的时代已经走到了尽头。

在他看来,单纯扩模型不再是推进 AI 的主路径,未来真正的突破,在于解决一个更根本的问题:今天的 AI 依然很难把自己的"聪明"泛化到真实世界的新情境中。


核心要点总结

1. 模型"锯齿感"(Jaggedness)问题

现象:现有大模型出现了一个很怪的断层:在各类基准测试里成绩惊人,但在简单的真实任务里却经常翻车,说明这种"智能"非常脆弱。

Ilya的解释

  • 解释一:强化学习(RL)可能让模型变得过于单一目标驱动,过于聚焦,某些方面的"觉察力"反而下降
  • 解释二:训练数据的选择方式本身带来偏差。过度聚焦 benchmark 可能本身就是问题所在,研究者用强化学习去优化那些专门为"考高分"设计的任务,反而可能在无意间削弱了模型向真实应用场景泛化的能力

2. 情绪 = 价值函数

核心观点:在人类身上,"情绪"也许扮演着类似 AI 里"价值函数"的角色,是内置在系统里的决策指导信号。

关键洞察

  • 人类情绪本身很简单,却因此在大量情境下都很鲁棒、很好用
  • 但在现代环境中,这种简单性也会失灵,比如在食物极大丰富的世界里,饥饿感已经不再是一个可靠的指引
  • 一个失去"情绪处理能力"的人——没有悲伤、愤怒等情绪,但智力完好——会变得无法做出任何决策,连挑选袜子都要想数小时

3. Scaling 时代落幕

核心判断:"纯靠扩容"的 AI 时代正在结束——那种"再大一点就能解决一切"的信念已经明显减弱。

时代划分

  • 2012-2020:研究的时代
  • 2020-2025:放大的时代(scaling)
  • 2025+:研究驱动的时代(但建立在超大算力之上)

关键转变:AI 正重新回到一个"研究驱动的时代",只不过这一次,研究是建立在前几年"扩容时代"堆出来的超大算力之上的。

4. 泛化能力是核心瓶颈

核心问题:当前大模型面临的最核心问题,是它们的泛化能力远逊于人类

  • 既体现在需要海量数据、样本效率极低
  • 也体现在想教它复杂任务非常困难

人类优势的来源

  • 进化可能给了人类在视觉、运动等"祖先技能"上一个极其强大的"先验"
  • 在现代任务上(比如学开车),人类学习不仅依赖外部奖励,还依赖一个强健的内部价值函数,它能即时地产生"自我评分",不需要别人显式给反馈

5. 公司数量多于点子数量

现状观察:如今,AI 进展的瓶颈已经从"算力"转向"想法本身",于是出现了一个现实:公司的数量多于真正新颖的思路。

Ilya的反思:硅谷有句老话:"点子不值钱,执行才是一切。"但有人反问:"既然点子这么不值钱,那为什么现在没人有点子?"

6. AGI 和预训练的误导性

核心观点:"AGI"和"预训练"这两个概念在某种程度上是误导性的。

重新理解

  • 比起把超级智能想象成一个"完工的、无所不知的产品",不如把它理解成一种:具备极强持续学习能力的存在
  • 人类其实并不是 AGI。人类的确有一套基础技能,但在人类身上缺失的知识量同样巨大。我们之所以能活下去,是因为我们不断地持续学习

7. 集体知识汇聚的智能爆炸

关键洞察:真正强大的已部署 AI,很关键的一点能力,在于:它可以把自己在整个经济体系中各个实例的学习结果合并起来。这种集体知识的"汇聚",是人类做不到的,也可能触发"智能爆炸"。

8. 时间表预测

Ilya的预测:大概在 5 到 20 年这个区间,会出现"类人学习者"级别的 AI。

停滞的定义:不同公司的产品在外观和能力上看起来越来越像。当然,即便在"停滞状态"下,这些公司仍然可以获得惊人的收入。

9. 对齐问题的思考

Ilya的观点

  • 最强大的 AI 真正投向世界,让它产生实际影响这件事,本身是非常有价值的
  • 随着 AI 能力变得越来越强,人们的行为一定会发生改变
  • 我认为,可以提出这样一个论点:比起去构建"只关心人类生命"的 AI,构建一个"关心所有有感知生命"的 AI,可能更容易做到

10. 研究品味(Research Taste)

Ilya的方法论

  • 心里有一套关于"AI 应该长成什么样"的审美——这个审美又是通过"去思考人类是怎样的"来形成的
  • 寻找那种美感:美、简洁、优雅、从大脑获取的那种"正确的启发"
  • 这种自上而下的信念,本身就是建立在这种"多维度的美感"和"从大脑来的启发"之上的

关键对话片段

关于模型"锯齿感"的讨论

Dwarkesh: 现在模型看上去似乎比它们的经济影响要"聪明得多"。

Ilya: 是的,这是当前模型最令人困惑的地方之一。如何解释这个矛盾?一方面模型在各类评测(evals)上表现惊人,那些评测明明很难,但模型能做得很好;另一方面,它们的经济影响却落后得多。

Ilya举例:你用 vibe coding 让模型写代码,遇到一个 bug,你告诉模型:"修一下这个 bug。"模型回答:"天哪,你说得太对了,我修一下。"然后它修出了第二个 bug。你再告诉它:"这里又有个新 bug。"它又说:"天哪,我怎么会这样,你说得又对了。"接着把第一个 bug 再次引回来。如此循环往复。

关于人类学习的类比

Ilya: 想象两个学习编程的人:

  • 学生 A:决心成为最强的竞赛选手。他练了 1 万小时,刷完所有题、掌握所有技巧,成为世界级顶尖。
  • 学生 B:觉得竞赛很酷,只练了 100 小时,题刷得远不如 A,但他也表现不错。

你觉得他们毕业后谁在真实世界的工作中表现更好?

Dwarkesh: 当然是第二个。

Ilya: 是的。模型更像第一个学生,甚至训练得更极端。大家为了让模型在比赛里强,把所有比赛题目都训练了,还做数据扩增,训练得过度、极致。

关于情绪和价值函数

Ilya: 再举例:一个失去"情绪处理能力"的人——没有悲伤、愤怒等情绪,但智力完好——会变得:

  • 无法做出任何决策
  • 连挑选袜子都要想数小时
  • 财务决策极差

这说明:情绪在做人类智能体中扮演了"价值函数(value function)"的角色。

关于 Scaling 时代的结束

Ilya: 从 2012 到 2020,这段时间是"研究的时代"。从 2020 到 2025,则是"放大的时代"(前后年份可以加点误差条),因为大家都在说:"太厉害了,继续往大了堆,继续放大。"一个词:scaling。

但现在规模已经大到如此离谱了。你真的还相信:"只要再多 100 倍算力,一切就完全不同"吗?当然,多 100 倍肯定会有变化。但是不是说,只要 scale 乘以 100,一切就被彻底改写?我不觉得。所以我们又回到了"研究的时代",只不过这次我们有了超级大的计算机。

关于泛化能力的讨论

Dwarkesh: 为什么模型需要远比人类多得多的数据才能学会同样的东西?

Ilya: 要解释人类样本效率,一个必须认真看待的可能解释是"进化"。进化给了我们一小部分极其有用的信息。在视觉、听觉、运动控制这些方面,我觉得进化给我们的东西非常多。

比如,人类的灵巧性远超机器人。机器人当然也可以变得非常灵巧,但那通常需要在模拟环境中进行海量训练。而要在真实世界中训练出一个机器人,让它像人一样快速掌握一项全新的操作技能,目前看起来相当遥远。

关于持续学习的理解

Ilya: 你可以想象,我们做出的是一个"超级聪明的 15 岁少年":极度好学,动力十足,但他知道的具体知识其实并不多,只是一个非常优秀、非常勤奋的学生。然后你对它说:"你去当程序员吧""你去当医生吧""你去学这个、学那个"。于是你完全可以想象,这种系统的部署过程本身就包含了一个带有试错性质的学习阶段。整个部署是一个过程,而不是把一个"已经完工的终极产物"一下子砸到世界上。

关于智能爆炸的可能性

Dwarkesh: 如果你有一个单一的模型——它的多个实例被部署到整个经济当中,分别去做不同的工作,在各自岗位上持续学习,把任何人类能学到的技能都学会,而且是同时学会,然后再把这些学习成果汇总在一起,那么你最终就拥有了一个功能上"超级智能"的模型——即便软件本身没有发生"递归自我改进"。因为此时,你已经有了一个"能做经济中所有工作"的单一模型,而人类是无法把大脑互相"合并"的。那你是否预期,从这种大规模部署中会出现某种"智能爆炸"?

Ilya: 我认为,我们非常有可能会迎来高速的经济增长。在广泛部署的前提下,你可以做两种互相有点冲突的判断。一种判断是:当你真的拥有一种 AI,它能非常快速地学会做很多事情,而且你还有很多这样的 AI 时,除非有某种监管机制刻意阻止(顺便说一句,这种监管完全可能出现),否则把它们大量部署进经济系统,会有极强的经济动力。这种部署,很可能在一段时间内带来极其迅猛的经济增速。

关于对齐和安全的思考

Ilya: 过去这一段时间里,我自己的想法发生了一些变化——其中一个变化是:我现在更强调让 AI 以"增量的方式""提前部署到现实中"的重要性。AI 的一个巨大难点在于:我们现在讨论的是尚不存在的系统,而这种系统很难被真正想象出来。

我觉得正在发生的一件事是:在实践中,人们其实很难"真正感受到 AGI"。我们当然可以谈论 AGI,但你可以试着想象:你现在和一个人谈论"等你老弱多病的时候,生活是什么样的"。你可以聊,你可以努力想象,但你会不断回到当前的现实,而那不是你的日常体验。

关于研究品味

Ilya: 对我个人来说,有一件事一直在引导我,那就是:心里有一套关于"AI 应该长成什么样"的审美——这个审美又是通过"去思考人类是怎样的"来形成的,但前提是,你得"正确地"思考人类是什么样。

我会从很多角度去审视一个想法,去寻找那种美感:美、简洁、优雅、从大脑获取的那种"正确的启发"。丑陋,是没有位置的。只有美、简洁、优雅,加上来自大脑的正确灵感——这些要尽可能同时出现。它们越齐全,你在"自上而下的信念"上就越能坚定。


参考链接


备注

本文档基于 InfoQ 对 Ilya Sutskever 访谈的完整内容整理,保留了核心观点和关键对话片段,便于后续深入分析和批判性思考。

posted @ 2025-12-05 23:47  吾以观复  阅读(4)  评论(0)    收藏  举报