在-LLMs-中理解涌现能力-从生物系统中学到的经验教训

在 LLMs 中理解涌现能力:从生物系统中学到的经验教训

原文:towardsdatascience.com/understanding-emergent-capabilities-in-llms-lessons-from-biological-systems-d59b67ea0379/

图片由 Michaela 提供。Pixabay.com

图片由 Michaela 提供。Pixabay.com

注意:本文介绍了我们最近的研究论文“理解大型语言模型中涌现能力的非遍历框架”的关键发现[链接 1] [链接 2]。虽然该论文提供了一个全面的数学框架和详细的实验证据,但本文的目的是让更广泛的读者能够理解这些见解。

然而,有多少种句子类型呢?比如陈述句、疑问句和祈使句?种类繁多;无数种我们称之为“符号”、“词语”、“句子”的不同用法。此外,这种多样性不是一成不变的,不是一次性给出的;而是新的语言类型、新的语言游戏,正如我们可能说的,出现,而其他类型则变得过时并被遗忘。我们可以从数学的变化中大致了解这一点。

鲁道夫·维特根斯坦,《哲学研究》,首次出版于 1953 年,第四版 2009 年,Wiley-Blackwell,英国

动机

我清晰地记得 2006 年的夏天。当我坐在办公桌前,周围堆满了关于创新管理理论和发明逻辑的论文时,我的研究遇到了瓶颈。理解组织创新出现的计量经济学框架感觉机械且过时。我缺失了关于新可能性如何从现有能力中产生的关键信息。那时,我第一次发现了 Stuart Kauffman 的书籍《Investigations》¹。其雄心勃勃的副标题——“自主代理的本质以及它们共同创造的世界”——既吸引人又令人毛骨悚然。当我最终开始阅读时,我发现自己被 Kauffman 对复杂生物系统如何持续产生新颖性的探索所吸引。他的核心思想“相邻可能”描述了生物系统中每个新的创新如何打开新的可能性,创造一个不断扩展的潜在未来空间。

这个想法一直困扰着我。Kauffman 理解生物系统如何通过现有元素的有限组合而不是随机搜索来探索和扩展其可能性空间,其数学框架感觉非常深刻。它开辟了一条思考创新不是作为一个线性过程,而是作为一个可能性有机扩展的路径。

快进到 2024 年。越来越复杂的大型语言模型,如 GPT 4o 或 Claude 3.5 的兴起。当前的研究主要强调经验观察和扩展定律——在 LLM 的经验分析以及许多描述系统属性随规模变化的真实世界复杂系统中发现的规律性。但主流方法仍然难以解释真实大型语言模型的行为。要实现超级智能和 AGI 的承诺,需要明确回答边缘模型是如何工作的这个问题。

理论物理学(以及理论生物学也是如此),在努力理解自然过程的本质而不依赖辅助工具时,发现事物变得更加对称、更加相似、更加难以区分。这简化了数学上更简单、更易于理解的模型的发展。希尔伯特断言,所有现实都可以用数学表达,最终,其本质是几何的。根据他的观点,物理学可以用几何来阐述。我相信,在尝试理解大型语言模型时,这种愿景可以非常有用。

这些 AI 系统似乎发展新能力的方式——不是逐渐发展,而是通过突然的过渡——让我想起了 Kauffman 关于生物系统演化的观点。同样的理论框架是否有助于解释生物可能性空间的扩展,从而帮助我们理解大型语言模型是如何发展其能力的?

复杂系统中的涌现:整体大于部分

当 OpenAI 发布 GPT-4o 时,发生了一些意想不到的事情。模型不仅仅是在现有任务上有所改进——它突然展现出了完全新的能力,这些能力并没有被明确编程进去。这一方面,即复杂行为意外地从简单的规则和交互中产生,在物理学中被称为“涌现”,在用简单规则描述复杂系统方面发挥着核心作用。但为了理解这对 AI 为何如此重要,我们首先需要了解涌现如何在复杂系统中工作。

一个复杂的系统并不仅仅是复杂或混乱的——它具有特定的属性,使其与其他系统在本质上存在差异。想想自动瑞士手表和蚂蚁群体的区别。手表虽然复杂,但其行为可以通过分析其部件来预测。然而,蚂蚁群体的动态却显示出仅通过分析单个蚂蚁的行为是无法预测的。

复杂系统具有三个关键属性:组件之间的非线性相互作用、在临界点上的自组织,以及在不同尺度上出现的新属性。

图 1. 沙堆中的雪崩动力学可以用自组织临界理论(SOC)来解释。随着沙粒的添加,沙堆保持一个稳定的斜率,直到达到一个临界点,此时额外的沙粒会引发雪崩。同样,语言模型表现出 SOC 行为:注意力模式保持稳定的分布,直到达到临界点,此时突然的重组织通过网络级联,导致新的涌现能力。这些重组织显示出临界性的无尺度分布特征,注意力权重从均匀模式转变为多个网络层中的专业模式。插图由作者绘制。

图 1. 沙堆中的雪崩动力学可以用自组织临界理论(SOC)来解释。随着沙粒的添加,沙堆保持一个稳定的斜率,直到达到一个临界点,此时额外的沙粒会引发雪崩。同样,语言模型表现出 SOC 行为:注意力模式保持稳定的分布,直到达到临界点,此时突然的重组织通过网络级联,导致新的涌现能力。这些重组织显示出临界性的无尺度分布特征,注意力权重从均匀模式转变为多个网络层中的专业模式。插图由作者绘制。

在复杂系统中,变化不是逐渐发生的。在某个时刻,小的变化会导致突然的质变——物理学家称之为相变。经典的例子是水变成冰。无论你如何缓慢地降低温度,在正好 0°C 时,水分子会突然重新排列成晶体结构(更准确地说,在 4°C 以下,水分子开始形成孤立的晶体)。这些转变遵循数学模式。

当系统接近临界点时,某些量遵循幂律,可以用数学公式ξ ~ |T – Tₖ|^(-ν)来描述,其中 T 是系统参数(如温度),Tₖ是临界点,ν是临界指数。这个方程告诉我们一些基本的东西:涌现通常发生在特定的临界点上的突然重组织,而不是通过逐渐改进。在物理学中,相变与物理基本概念对称性²相关。

当我们分析这些模型如何发展新的能力时,我们发现了一些与物理系统中相变相似的规律。例如,我们观察到解决多步数学问题的能力并不随着模型规模的线性增长而提高。相反,存在一个临界点,模型会突然从随机尝试转变为结构化的、逐步的解决方案。但也许在 LLM(大型语言模型)中出现的最令人惊讶的方面是自我组织。就像一群鸟遵循简单的局部规则导致复杂的集体行为一样,神经网络在没有明确编程的情况下发展出有序的信息处理模式。我们可以通过 Transformer 模型中的注意力模式来衡量这种自我组织。在临界点,这些模式会自发地从相对均匀的分布重新组织成高度专业化的结构。这种重组是通过突然的过渡发生的,指向新能力的出现。这种行为可以解释为什么传统的统计指标,如困惑度,往往无法完全捕捉到模型的能力。就像测量水分子的平均速度无法预测冰的形成一样,统计指标无法捕捉这些模型内部发生的复杂重组。这听起来是不是很像复杂系统中出现的概念?这表明语言模型遵循物理学家在自然界发现的根本定律吗?

相邻可能:从生物学到 AI

Kauffman 的相邻可能理论³,或 TAP,为分析系统如何在当前状态下受到限制的同时保持持续创新提供了一个强大的工具。在生物系统中,每一次新的创新都开辟了新的可能性,但这些可能性受到从当前状态可达到的范围的限制。想想单词“LOT”的字符序列。这个序列有一个辅音“L”,后面跟着一个元音“O”,然后是另一个辅音“T”。如果我们保持辅音,使用二项式系数(|P| choose i)其中 P=[a,e,i,o,u],相邻可能将引导我们到序列 LAT, LET, LIT, LOT, LUT。但据我所知,“LUT”这个词不在英语词典(词汇)中(the lexicon)。这意味着并非所有可能的相邻状态都是可达到的。

同样的原则可能适用于语言模型发展其能力的方式。每一种新的能力并不是孤立出现的,而是从现有模式和能力的组合中产生,受到模型架构、训练和上下文的限制。就像生物系统通过现有元素的受限组合探索其可能性空间一样,语言模型可能通过限制性探索学习到的模式来导航其语义空间。

图 2. 这幅波普艺术作品通过其迭代的色彩变化展示了相邻可能性的转换原理。相同的基座肖像以不同的色彩方案重新构想,每个面板都是基于并偏离其他面板——这与相邻可能性在创造性过程中的工作方式非常相似。艺术家从一个单一图像开始,探索“相邻”的色彩可能性,创造出四种不同的解释。图片由 Javier Rodriguez 在 Pixabay 提供。

图 2. 这幅波普艺术作品通过其迭代的色彩变化展示了相邻可能性的转换原理。相同的基座肖像以不同的色彩方案重新构想,每个面板都是基于并偏离其他面板——这与相邻可能性在创造性过程中的工作方式非常相似。艺术家从一个单一图像开始,探索“相邻”的色彩可能性,创造出四种不同的解释。图片由Javier RodriguezPixabay提供。

我们需要证明三个关键假设

为了测试相邻可能性理论描述 LLM 行为的适用性,在上述论文中,我们提出了关于语言模型如何发展新能力的三个假设:

  • 能力通过语义空间中的相变出现,类似于生物系统在临界点突然重组的方式。

  • 这些过渡是由架构、训练和上下文约束的乘性交互所塑造的。

  • 模型在其可能性空间中采取的路径从根本上影响了其未来的能力,使得这些系统本质上是非遍历的。

当前研究主要强调经验观察和尺度定律¹。尺度定律是在对 LLM 的经验分析以及许多描述系统属性随规模变化的现实世界复杂系统中发现的规律。但当前的方法仍然难以解释模型的行为。当我们观察到这些能力并非逐渐出现,而是在某些尺度上通过突然的过渡出现时,这一挑战变得尤为明显。此外,这些模型对其交互历史的强烈依赖表明,它们的行为可能与简单的统计系统根本不同。

在自然界中,一些复杂的生物系统,如发育中的生物体和生态系统,显示出类似的模式:能力通过突然的过渡而不是渐进的改进而产生,系统行为强烈依赖于历史背景,并且基于达到特定状态的进化路径,响应会显著变化。在这篇文章中,我们将探讨一些与自然界中复杂系统平行的语言模型行为的基本方面。通过理解这些原则,我们可以更好地预测并可能指导语言模型如何发展新的能力。

假设 1. 非遍历系统:记忆效应

要理解语言模型如何发展能力,我们首先需要解决一个基本问题:这些模型是否在时间上均匀地探索它们的可能性空间(遍历行为),或者它们的过去历史从根本上限制了它们的未来状态(非遍历行为)?遍历理论研究动力系统的长期统计行为,解决这些系统的长期统计行为⁴。形式上,一个系统是非遍历的,当其时间平均值与其集合平均值不同。

考虑这个简单的例子。让我们向模型提出问题:“量子纠缠是什么?”但在两种不同的情境下。

User: I'm watching a sci-fi movie about time travel.
AI: Those can be fascinating! Time travel in science fiction often plays with 
some interesting physics concepts.
User: What is quantum entanglement?
AI: Quantum entanglement is like a cosmic connection between particles. Imagine
    two characters in your sci-fi movie who are always connected - when one 
    makes a choice, it instantly affects the other, no matter how far apart 
    they are. In physics terms, entangled particles behave similarly - 
    measuring one immediately influences the other, regardless of distance. 
    This "spooky action at a distance," as Einstein called it, is one reason 
    why quantum physics seems to defy our usual  understanding of time and 
    space.
User: I'm trying to understand how quantum computers work.
AI: That's a great topic! Quantum computing is built on some fundamental 
    principles of quantum mechanics.
User: What is quantum entanglement?
AI: Quantum entanglement is a fundamental property that makes quantum computers 
    powerful. When two quantum bits (qubits) become entangled, their quantum 
    states are interconnected. This means that performing operations on one 
    qubit instantly affects its entangled partner. This property allows 
    quantum computers to perform certain calculations exponentially faster than
    classical computers because they can manipulate multiple entangled qubits 
    simultaneously, creating quantum circuits that process information in ways 
    impossible for traditional computers.

给予模型多个实例(集合平均值)的相同提示,与依次向单个实例(时间平均值)给出提示的结果不同。因此,系统的未来“状态”(可能的响应)关键取决于其历史;时间平均值和集合平均值发生分歧。这为 LLMs 是非遍历系统提供了初步论据。

图 3. 遍历与非遍历系统对提示“什么是量子纠缠?”的响应。在遍历系统中,时间平均值等于集合平均值:当 t → ∞时,系统均匀地探索整个状态空间,使得所有响应状态无论初始条件或路径如何都同样可访问。在非遍历系统中,时间和集合平均值发生分歧:当 t → ∞时,系统的轨迹仍然被其历史所决定的整个相空间的一个子集所限制。系统通过在响应空间中形成不同的吸引域来打破遍历性。这些吸引域由之前的提示(上下文)创建,这些提示创建了路径相关的约束,这些约束无限期且不可逆地持续存在,阻止系统探索状态空间中的某些区域,即使在无限时间极限下也是如此。这种行为是具有强烈历史依赖性和非马尔可夫动力学⁵的系统特征,其中系统的演化不仅取决于其当前状态,还取决于其在相空间中的整个轨迹。图由作者绘制。

图 3. 对提示“什么是量子纠缠?”**的响应的遍历与非遍历系统。在一个遍历系统中,时间平均值等于集合平均值:当 t → ∞ 时,系统均匀地探索整个状态空间,使得所有响应状态无论初始条件或路径如何都同样可访问。在一个非遍历系统中,时间和集合平均值会发散:当 t → ∞ 时,系统的轨迹仍然被限制在其历史决定的整个相空间的一个子集内。系统通过在响应空间中形成不同的吸引域来打破遍历性。这些吸引域是由之前的提示(上下文)创建的,它们创建了路径相关的约束,这些约束无限期且不可逆地持续存在,阻止系统探索状态空间中的某些区域,即使在无限时间极限下也是如此。这种行为是表现出强烈的历史依赖性和非马尔可夫动力学⁵的系统特征,其中系统的演化不仅取决于其当前状态,还取决于其通过相空间的整个轨迹。图由作者绘制。

在我们的实验中,我们系统地测量了不同模型中的这一效应。当我们追踪模型解决复杂问题的方式时,我们发现某些模型在解决路径上显示出重要差异,这取决于先前的上下文。更有说服力的是,当我们改变信息呈现的顺序时,它们的响应长度和风格平均变化了几个步骤(超过 10 个)。

我们的实验结果表明,大型语言模型与非遍历系统共享三个基本属性:

  • 路径相关的状态空间:与最终无论初始条件如何都会探索所有可能状态的气体分子不同,语言模型表现出受限的探索模式。每次交互实际上都会修改模型下一个可访问状态空间。这就是为什么相同的提示可以根据先前的交互导致不同的解决方案——模型不是在探索所有可能的响应,而是在遵循由其交互历史塑造的路径。

  • 时间-集合不等价性:非遍历系统的另一个定义特征是,对时间进行平均会产生与对多个实例进行平均不同的结果。我们直接观察到了这一点:多次运行相同的提示序列(集合平均)与在时间上运行不同的提示序列(时间平均)产生了显著不同的结果。这种不等价性是非遍历系统的一个关键属性。

图 4. 不同模型架构的熵-性能关系,展示了注意力分布模式如何与问题解决能力相关联。x 轴显示注意力熵(衡量注意力分布的均匀程度),而 y 轴显示复杂任务上的性能。GPT2-xl(绿色)在更高的熵(约 1.7)下运行,性能更好(0.15–0.20),揭示了更分散的注意力模式。相比之下,opt-1.3b 和 pythia-1.4b 显示较低的熵(1.3–1.4)和性能(0.025–0.090)。这些结果表明,注意力分布中的较高熵与更好的能力出现相关,支持我们关于语义空间组织中的相变假设。图片由作者提供。

图 4. 不同模型架构的熵-性能关系,展示了注意力分布模式如何与问题解决能力相关联。x 轴显示注意力熵(衡量注意力分布的均匀程度),而 y 轴显示复杂任务上的性能。GPT2-xl(绿色)在更高的熵(约 1.7)下运行,性能更好(0.15–0.20),揭示了更分散的注意力模式。相比之下,opt-1.3b 和 pythia-1.4b 显示较低的熵(1.3–1.4)和性能(0.025–0.090)。这些结果表明,注意力分布中的较高熵与更好的能力出现相关,支持我们关于语义空间组织中的相变假设。图片由作者提供。

  • 记忆效应: 正如河流的未来路径取决于它已经开凿的渠道一样,每个模型交互都会创建影响未来响应的模式。响应长度和解决方案路径平均变化超过 10 步的事实表明,这些不仅仅是情境效应;它们是模型在知识空间中导航的根本性变化。

图 5. 通过步长差异测量的语言模型响应中的路径依赖性。图表显示了不同模型在不同情境下解决相同问题时表现出不同程度的路径依赖性。Pythia-1.4b 显示出最高的敏感性(≈16 步差异),而 opt-1.3b 显示出最低的(≈12 步)。这些重要差异表明,路径依赖性是这些系统的基本属性,而不仅仅是简单情境效应。模型架构似乎影响这种程度,更先进的架构显示出更高的路径敏感性。图片由作者提供。

图 5. 通过步长差异测量的语言模型响应中的路径依赖性。图表显示了不同模型在解决相同问题时的不同情境下表现出不同程度的路径依赖性。Pythia-1.4b 显示出最高的敏感性(≈16 步差异),而 opt-1.3b 显示出最低的(≈12 步)。这些重要差异表明,路径依赖性是这些系统的基本属性,而不仅仅是简单的情境效应。模型架构似乎影响了这种效应的程度,更高级的架构显示出更高的路径敏感性。图片由作者提供。

当使用大型语言模型时,这些特性具有直接的实际意义。例如,提示的顺序很重要,因为每次交互都会修改可访问的状态空间。在一个情境中找到的解决方案可能在另一个情境中无法触及,这是由于路径依赖性。这个概念有助于解释为什么提示工程不仅仅是找到正确的词语;它关乎理解如何引导一个非遍历系统穿越其状态空间以达到期望的能力

假设 2. 相变:当模型学会上升

语言模型并非通过稳步改进而发展新的能力,而是通过突然的变化,这在物理学中被称为相变。这些突然的转换并不是逐渐发生的;它们发生在特定的临界点上,整个系统会重新组织。一个经典的例子是水变成冰:无论你如何缓慢地降低温度,在正好 0°C 时,水分子会突然重新排列成一种晶体结构,系统行为发生完全重组。在一定的临界点上,系统的基本行为发生变化,并不是因为外部力量,而是通过内部重组。这在复杂系统理论中被称为自组织临界性,或 SOC:一个复杂系统会自然地组织成一个处于两个不同状态边缘的临界点,而不需要来自系统外部的干预. 我们的研究表明,语言模型具有相同的行为。

  • 学习的临界点:大型语言模型显示出明显的临界点,在这些点上它们的能力会突然改变。性能并不是平滑提升的——相反,我们观察到解决问题的能力会突然出现。在这些临界点上,模型的内部组织发生了根本性的转变。

  • 对称破缺:在这个相变之前,大型语言模型以某种随机的方式探索可能性。但达到临界点后,它们会发展出结构化、一致的解决问题的策略。这反映了磁性材料在特定温度下突然调整其内部结构的现象——这是物理学中的一个基本原理,称为对称破缺⁶。

  • 能量景观:通往这些转变的路径遵循可预测的模式。我们观察到,在能力出现之前,模型的注意力模式(其处理信息的方式)会重新组织。这种重新组织不是随机的;它遵循我们可以测量和预测的特定模式。这些重新组织代表了模型找到低能量配置,从而实现更有效的信息处理。例如,当模型突然发展出解决多步数学问题的能力时,我们观察到从随机尝试到结构化、逐步解决方案的快速转变。

理解这些相变使我们能够深入了解 LLM 模型的发展。我们可能能够通过识别和分析这些关键点来预测并最终引导新模型能力的出现。

假设 3. 影响大型语言模型行为的三个力量

凯夫曼的相邻可能理论从一个简单但强大的方程开始:

方程 1. 凯夫曼提出的 TAP 模型方程。图片由作者提供

方程 1. 凯夫曼提出的 TAP 模型方程。图片由作者提供

这个简单的方程帮助我们理解一个简单想法:新的可能性不是随机出现的,而是通过现有事物的约束组合出现的。Mₜ代表在时间 t 时可能性的数量,求和描述了这些可能性如何组合以创造新的可能性。方程中的αⁱ项是关键。它描述了不同约束之间的相互作用,限制了哪些组合实际上是可能的。由于这种组合和约束之间的相互作用,我们可以在时间 t+1 时得到可用的可能性空间 Mₜ₊₁。

当我们将这个框架应用于大型语言模型时,我们发现三种基本的约束类型塑造了这些模型发展新能力的方式:

  • 架构约束

模型的架构为其可以处理的内容设定了基本限制。内存容量就像细胞的物理大小,限制了同时可以存储的信息量。注意力机制就像细胞通路,决定了不同信息片段如何相互作用。最后,网络连通性创建了细胞信号网络的等效物,为信息流动建立了可能的路径。

  • 训练约束

与进化历史塑造生物体可能适应的方式相似,训练塑造了模型的可能性景观。训练示例通过可能性空间选择首选路径,同时训练数据分布创建“山谷”,吸引相似的模式。这些学习到的模式就像酶一样,使某些转换更容易,同时抑制其他转换。

  • 上下文约束

就像细胞对其当前环境的反应(我们最好说“适应”)一样,上下文动态地塑造了可能性的范围。最近的交互改变了局部“景观”中的标记可能性,如图 2 所示。当前上下文提供了支架,使得某些组合成为可能,同时阻止其他组合。这些效应创造了暂时性的模式,驱动模型的行为。

约束的乘法性质

约束可以以不同的方式相互作用,例如加法或乘法。我们在研究中发现,大型语言模型的约束以乘法方式相互作用。这意味着,就像需要正确的温度、正确的 pH 水平和正确的催化剂的化学反应一样,模型能力只有在所有约束有利对齐时才会出现。这种乘法交互解释了为什么模型能力往往突然出现而不是逐渐出现。它类似于你不能部分地煮沸水——它需要精确达到 100°C(在海平面上)才能发生相变。所有必要条件必须同时满足。

图 6. 就像语言模型中的乘法约束一样,酶级联展示了生物系统如何需要多个因素的协调以实现复杂的转换。正如简单的化学底物通过一系列连续的酶反应(每个步骤都依赖于前一步的成功)被转化为药物产品一样,语言模型的能力通过架构、训练和上下文约束的乘法交互而产生。级联中的每个酶都充当一个必须满足的约束,以便过程继续进行——如果任何一个酶失败,整个级联都会失败。这种乘法性质解释了为什么语言模型中的能力往往突然出现而不是逐渐出现——所有约束都必须同时工作,就像级联中的所有酶都必须存在且功能正常,才能合成最终产品。插图改编自 Benítez-Mateos, A.I., Roura Padrosa, D. & Paradisi, F. 多步骤酶级联作为绿色和可持续药物合成的途径。Nat. Chem. 14, 489–499 (2022)。https://doi.org/10.1038/s41557-022-00931-2。

图 6. 与语言模型中的乘法约束类似,酶级联展示了生物系统如何需要多个因素的协调以实现复杂转换。正如简单的化学底物通过一系列的酶促反应(每个步骤都依赖于前一步的成功)转化为药物产品一样,语言模型的能力通过架构、训练和上下文约束的乘法交互而产生。级联中的每个酶都充当一个必须满足以使过程继续进行的约束——如果任何一个酶失败,整个级联都会失败。这种乘法性质解释了为什么语言模型中的能力往往突然出现而不是逐渐出现——所有约束都必须同时工作,类似于级联中的所有酶都必须存在且功能正常,最终产品才能合成。插图改编自 Benítez-Mateos, A.I., Roura Padrosa, D. & Paradisi, F. 多步酶级联作为绿色和可持续药物合成的途径。Nat. Chem. 14, 489–499 (2022)。doi.org/10.1038/s41557-022-00931-2

为了将方程 2 中的原始 TAP 等式适应到语言模型探索其可能性空间的方式,我们开发了以下方程(本帖开头所展示论文的目标):

方程 2. 为语言模型提出的资源限制扩展方程。图由作者绘制。

方程 2. 为语言模型提出的资源限制扩展方程。图由作者绘制。

Aₜ₊₁代表下一时间步的可达状态空间,而 Aₜ是当前可达状态空间。第一个求和Σ捕捉了语言处理的层级水平(从标记到短语再到更广泛的结构),其中 gₗ是一个层级函数,将这些组合转换成模型的语义空间,L 是语言模型处理中的总层级水平数⁷。第二个求和Σ代表词汇大小|Vₜ|或词汇表中的所有可能组合。参数α(t,i)结合了时间 t 时的所有约束(架构、训练和上下文),二项式系数(|Vₜ| choose i)代表标记的可能组合。方程 2 可能指向未来更好地指导 AI 系统发展的方法。

实际影响

我们的理论框架为与大型语言模型工作提供了几个潜在的见解,尽管我们必须小心不要过分夸大它们的即时实际应用。

我们可以(统计)有信心地说

  1. 上下文顺序的重要性: 我们的实验证明,向模型呈现信息的顺序显著影响其响应,反映了模型访问其能力的基本约束。例如,我们发现,在问题解决任务之前呈现数学概念,与以相反顺序呈现相同信息相比,始终能带来更好的性能。

  2. 训练中的关键点: 相位转变(对称破缺)的识别表明,某些能力可能在训练过程中突然出现,而不是逐渐出现。这有助于解释为什么中间检查点往往表现出令人惊讶的性能大幅跳跃。然而,我们目前还不能可靠地预测这些转变何时会发生。

  3. 资源分配权衡: 理解约束的乘性性质有助于解释为什么仅仅增加计算资源并不总是按比例提高性能。所有三种类型的约束——架构、训练和上下文——都需要对齐,以便出现新的能力。

局限性和开放性问题

虽然我们的框架解释了观察到的现象,但其预测能力仍然有限。我们目前还不能可靠地预测特定能力将在新的模型或架构中何时出现。尽管我们理解架构约束起着至关重要的作用,但将这一见解转化为具体的架构改进还需要进一步的研究。模型架构与能力出现之间的联系在很大程度上仍然是相关性的。我们的框架表明,训练策略可能围绕关键点进行优化,但我们还没有可靠的方法来提前识别这些点。

未来研究方向

应用此框架最有希望的区域包括:

  1. 诊断工具: 开发更好的工具来识别模型在能力发展中接近临界转变的时刻。

  2. 资源优化: 理解如何根据约束相互作用更好地平衡不同架构组件的计算资源。

  3. 训练课程优化: 探索如何优化训练示例的顺序,以便与模型发展的自然相变相协调,而不是与之相冲突。免责声明

免责声明

虽然我们的框架为理解大型语言模型(LLM)的行为提供了一个新的视角,但它应被视为一个起点而不是一个完整的理论。像任何复杂系统的模型一样,它不可避免地简化了 LLM 行为的许多方面。它的主要价值在于提出新的思考和研究这些系统的方法,而不是提供解决实际挑战的即时解决方案。


¹ 读者可以在圣塔菲研究所网站上找到《调查》一书的副本:www.santafe.edu/research/results/working-papers/investigations

² 对称性可以被视为物理学用来描述现实基本观察的几何语言。在数学中,对称性被称为群论,这是一种非常强大的工具,使我们能够以易于理解的方式对复杂观察进行建模。这种语言在理解复杂现象,如大型语言模型的行为方面非常有用。您可以在本书中找到对称性在现实世界现象中重要性的全面解释:link.springer.com/book/10.1007/978-3-030-03633-1

³ 凯夫曼,S. (2022). 对于非遍历系统,是否存在一种第四定律,使其能够对其扩展相空间进行工作?熵 2022,第 24 卷,第 1383 页,第 24 卷第 10 期,第 1383 页。doi.org/10.3390/E24101383

⁴ 关于遍历理论的更深入探讨,请参阅此处:plato.stanford.edu/entries/ergodic-hierarchy/#Ergo

⁵ 马尔可夫动力学指的是未来状态的概率分布仅取决于当前状态,而不取决于之前发生的事件序列。形式上,对于一个具有状态 {Xₜ} 的系统,它满足 P(Xₜ₊₁|Xₜ,Xₜ₋₁,…,X₁) = P(Xₜ₊₁|Xₜ)。语言模型表现出非马尔可夫行为,因为它们的响应取决于它们整个交互历史。

⁶ 对称性破缺是指一个在特定条件下看似对称的系统转变为具有较少对称性的状态的现象。一个经典的例子是笔尖完美平衡——初始设置是对称的(它可以向任何方向掉落),一旦掉落,这种对称性就被“打破”了,因为它选择了特定的一个方向。在粒子物理学中,这个概念解释了粒子如何通过希格斯机制获得质量,其中初始对称状态转变为具有较低对称性的状态。在我们对语言模型的分析中,我们观察到当模型从平等探索所有可能性(对称状态)转变为发展首选、结构化的方法(对称性破缺状态)时,存在类似的对称性破缺现象。

⁷ 语言模型中非遍历性的层级性质与 LeCun 的 H-JEPA 框架显示出有趣的相似性。虽然 H-JEPA 明确设计架构以支持基于层级预测的学习,但我们的框架描述了层级如何通过约束交互自然地出现。两种方法都假设较低层级约束较高层级的预测,从而创建路径依赖的学习。这种相似性表明,非遍历行为可能是人工智能系统中层级学习的基础,而不仅仅是架构上的产物。关键的区别在于实现方式:H-JEPA 将层级结构构建到架构中,而我们观察到它们从约束交互中产生。这种设计和涌现层级的对齐为架构设计提供了有希望的方向,尽管潜在机制可能存在显著差异。LeCun 的工作为我们提供了关于如何在未来的 AI 系统中有意构建这些层级关系的有趣视角。


对于任何评论,请通过以下邮箱联系我:[email protected]

posted @ 2026-03-28 10:20  布客飞龙V  阅读(5)  评论(0)    收藏  举报