哈佛机器学习几何笔记-全-

哈佛机器学习几何笔记（全）

003：Ricci流作为AI的测试

在本节课中，我们将要学习Ricci流的基本概念、其在几何与拓扑中的核心应用，并探讨其与人工智能领域可能的交叉点。Ricci流是一个强大的几何分析工具，它通过一个非线性热方程来演化黎曼度量，从而揭示流形的深层几何与拓扑结构。

概述

Ricci流由Richard Hamilton提出，并由Grigori Perelman等人发展，成功证明了三维流形的几何化猜想。近年来，Richard Bamler的工作为理解更高维度的Ricci流带来了新的希望。本教程旨在提供一个关于Ricci流的广泛概述，并思考机器学习社区如何与Ricci流领域进行更多互动。

Ricci流简介与背景

上一节我们介绍了课程的整体目标，本节中我们来看看Ricci流的基本定义和它在几何中的核心地位。

黎曼几何是欧几里得几何在非线性流形上的最直接推广。其核心是在流形的每一点定义一个内积（度量），用以描述角度和距离。度量张量 g 是描述这一结构的基本对象。

在黎曼几何中，我们可以自然地导出Levi-Civita联络，进而得到黎曼曲率张量 Rm。通过对曲率张量取迹，我们可以得到更简单的Ricci曲率张量 Rc 和标量曲率 R。

Ricci流方程正是关于度量张量 g 随时间演化的方程：

∂g/∂t = -2 Rc

这是一个非线性热型方程。Hamilton最初在方程中使用了正号，但计算后发现使用负号才能使方程像反向热方程一样工作。

Ricci流的成功与应用

上一节我们定义了Ricci流，本节中我们来看看它在数学中取得的辉煌成就。

Ricci流最著名的成功是Hamilton-Perelman对三维庞加莱猜想以及更一般的Thurston几何化猜想的证明。近年来，Bamler和Kleiner在证明广义Smale猜想方面也取得了突破性进展。

在二维曲面上，Ricci流总是收敛到常曲率度量。下图展示了一个“哑铃”形状的曲面在Ricci流下的演化过程：负曲率区域膨胀，颈部逐渐收缩，最终整个曲面演变成一个渐近球形的形状。

在三维，Ricci流的行为与流形的拓扑分解（如素分解、环面分解）完美对应。奇异点的形成（如柱面颈缩）直接导致了拓扑手术，从而实现了几何化。

Ricci流的基本分析工具

上一节我们看到了Ricci流的强大应用，本节中我们来看看分析Ricci流所依赖的一些基本工具。

由于Ricci流定义在流形上，许多经典的PDE技术难以直接应用。因此，Ricci流理论发展出了一套非常具体和初等的方法，其中最基本的就是极大值原理。

考虑一个满足热方程的函数。在空间极大值点，其拉普拉斯算子非正，这意味着时间导数必须小于等于零，因此极大值会随时间下降。这一简单事实为热方程的解提供了先验估计。Ricci流中许多关键估计，如曲率下界的保持，都依赖于极大值原理的推广。

以下是Ricci流中一些核心的演化方程：

标量曲率的演化：∂R/∂t = ΔR + 2|Rc|²。这是一个带有非线性项的热方程，该非线性项非负，这有利于保持曲率下界。
Hamilton-Ivey估计：在三维，该估计表明在奇点模型中，截面曲率是非负的。这极大地简化了奇点模型的拓扑和几何结构，是发展手术理论的关键。
Harnack估计：这是梯度估计，由Hamilton推广到Ricci流，在三维奇点分析中具有深远影响。

Perelman的突破性思想

上一节介绍的分析工具多由Hamilton建立，本节中我们来看看Perelman带来的革命性见解。

Perelman引入了一套全新的观点，将Ricci流置于一个更大的“时空几何”框架中。他的核心贡献之一是引入了单调性公式，而在此之前这被认为需要曲率条件。

他定义了 F-能量 和 W-熵。F-能量在物理学文献中被称为低能有效作用量。通过将Ricci流与一个函数（称为伸缩子）耦合，Perelman证明了F和W沿Ricci流是单调的。这揭示了Ricci流在某种意义下是一个梯度流。

当这些泛函取临界值时，我们得到Ricci孤立子方程：

Rc + Hess(f) = λg

孤立子在Ricci流下只通过微分同胚和缩放运动，是奇点模型的重要组成部分。W-熵的单调性还直接导致了“无局部塌缩”定理，这是研究奇点形成的基石。

高维推广与4维几何化展望

上一节我们看到了Perelman如何革新了Ricci流理论，本节中我们来看看该理论向四维及更高维度的推广，及其在拓扑中的应用前景。

基于Bamler等人的工作，现在有望在四维及更高维度上理解Ricci流。一个核心的猜想是，在四维可能存在类似的几何化纲领。

在三维，Ricci流导致的手术对应于1-手术（S² × D¹）。在四维，情况更加复杂。奇点形成可能涉及更复杂的结构，例如：

2-手术：类似于 S² × D² 的区域发生颈缩。
3-手术：涉及三维球面空间形式。

以下图片示意了四维中可能的奇点与手术过程：

与三维流形最终得到双曲片类似，四维Ricci流的长期极限可能得到爱因斯坦流形片。该理论的目标是控制诸如符号差和第二贝蒂数等粗糙的拓扑不变量，并试图解决著名的11/8猜想（关于单连通拓扑四维流形光滑分类的核心问题）。

Ricci流与人工智能的交叉

上一节我们探讨了Ricci流在纯数学中的前沿问题，本节中我们来看看这个领域与人工智能（AI）可能的互动方向。

Ricci流是一个结构丰富、挑战性强的数学领域，这使其成为测试和推动AI发展的理想平台。以下是几个潜在的交叉方向：

形式化与验证

将Ricci流的基础理论（如度量、联络、曲率）乃至更高级的定理在Lean等证明助手中形式化。
这不仅能验证数学的正确性，也能为AI提供结构化的、逻辑严密的数学数据。

数据生成与训练

与Ricci流研究者合作，创建专门的数据集，用于训练AI模型。
这些数据可以包括：注解化的LaTeX文档（如教材、论文）、定理证明的步骤、不同几何对象的示例。

开放问题与AI辅助研究

Ricci流领域存在大量未解决的猜想和问题，层级从非常具体到极其宏大。
AI能否帮助发现新的单调性公式？
AI能否辅助进行复杂的先验估计（“估计的艺术”）？
能否利用AI探索四维Ricci流中奇异点形成的所有可能模式？

促进Ricci流社区与机器学习社区更紧密的连接，互相提出正确的问题，是推动双方发展的关键。

总结

本节课中我们一起学习了Ricci流的核心思想。我们从黎曼几何的基础和Ricci流的定义出发，回顾了它在证明三维几何化猜想中的成功。我们分析了其依赖的基本工具，如极大值原理，并探讨了Perelman引入的时空几何和单调性公式这一革命性思想。接着，我们展望了Ricci流在四维几何化中的前景及其与拓扑的深刻联系。最后，我们提出了Ricci流与人工智能交叉的若干可能性，包括形式化验证、数据生成和辅助解决开放问题。Ricci流是一个综合了几何、分析和拓扑的非凡领域，其未来的发展或许需要人类与人工智能的协同探索。

006：脑类器官的拓扑与网络分析

在本节课中，我们将学习如何将拓扑学（特别是持续同调）和网络分析方法应用于脑类器官的研究。脑类器官是实验室培养的微型脑组织，可作为研究大脑功能和计算原理的简化模型。我们将探讨如何从这些系统的神经活动中提取数学结构，并分析其拓扑复杂性和网络特征。

概述

研究始于一个核心问题：大脑如何处理信息？一种理论认为，大脑在一个高维流形中处理信息。我们的目标是探索这种高维结构，并测试在人工智能模型中是否也存在类似的结构。我们使用脑类器官作为研究真实大脑的简化模型，应用持续同调来分析其神经活动在时间域中形成的拓扑结构。

数据与分析方法

上一节我们介绍了研究动机，本节中我们来看看具体的数据来源和分析流程。

我们使用微电极阵列记录脑类器官中神经元的放电活动。每个电极记录到的信号经过尖峰排序算法处理，以区分真实的神经元信号和噪声，最终得到一个二进制的尖峰序列矩阵。

为了分析神经元之间的相关性，我们首先对尖峰序列应用高斯平滑核（宽度为50毫秒），以模拟突触传递的时间并便于计算交叉相关性。然后，我们计算所有神经元对之间的交叉相关性，得到一个全对全的相关性矩阵。

以下是构建相关性图的核心步骤代码描述：

# 伪代码：构建相关性图
spike_matrix = load_spike_data() # 加载尖峰序列矩阵
smoothed_matrix = gaussian_smooth(spike_matrix, window=50ms) # 高斯平滑
correlation_matrix = cross_correlation(smoothed_matrix) # 计算交叉相关性
graph = construct_graph_from_correlation(correlation_matrix, threshold=50th_percentile) # 根据相关性阈值构建图

从这个相关性矩阵出发，我们可以构建一个图，其中节点是神经元，边的权重是它们之间的相关性强度。这个图是后续网络分析和拓扑分析的基础。

拓扑分析：寻找“形状”

在构建了神经活动的图表示之后，我们接下来使用持续同调来研究其拓扑结构。

我们使用 Vietoris-Rips 过滤方法来研究这个未知空间。此方法通过逐渐改变连接节点的相关性阈值（即“距离”参数），来观察不同尺度的拓扑特征（如连通分量、环、空洞）如何产生和消失。

分析的核心输出是持续同调图或持续图，它展示了拓扑特征（如同调群的生成元）随着相关性阈值变化的“出生”和“死亡”过程。拓扑复杂性可以通过存在的最高阶同调群来量化。

在我们的初步分析中，脑类器官并未显示出像完整大脑研究中那样明确的拓扑结构（如环面）。最高仅观察到第二同调群，其活动形成的拓扑结构类似于一个球面。

网络特征分析

尽管没有发现明确的全局几何形状，我们仍然可以通过分析网络特征来获取信息。以下是几个关键的网络度量指标及其含义：

节点强度分布：衡量每个神经元与其他神经元连接的总强度。我们发现，与随机对照模型相比，脑类器官中有更多具有高强度连接的“枢纽”节点，表明存在更强的放电同步性。
聚类系数分布：衡量网络的局部紧密连接程度。脑类器官显示出中到高的聚类系数，表明神经元倾向于与邻近神经元形成紧密连接的群体，这有利于稳健的信号传播。
加权路径长度分布：衡量网络中信息传播的效率。我们发现数据中存在两个重叠的长度尺度，这可能暗示了网络中存在社区结构，即内部连接紧密、彼此间连接稀疏的神经元群组。

对照模型与稳健性检验

为了确认我们观察到的特征具有统计显著性，而不仅仅是随机噪声，我们引入了两种对照模型：

约束随机化模型：通过打乱尖峰序列矩阵中的数据，保持每个神经元的放电总数和每个时间仓的放电总数不变，从而破坏时间相关性但保留基本的统计特性。
集成自举模型：从所有脑类器官的神经元尖峰序列中随机抽取，构建一个数据集。这个模型模拟了物理和功能上独立、互不连接的神经元集合。

此外，我们还进行了稳健性检验，通过随机移除或针对性移除参与重要拓扑特征（如H1环）的节点，来测试网络结构的鲁棒性。结果显示，针对性移除会迅速破坏拓扑复杂性，而随机移除的影响则较小。

研究局限与未来方向

我们的研究存在一些局限性：

数据规模：仅分析了少量（4个人类，9个小鼠）脑类器官的数据，统计效力有限。
测量技术：使用的是二维切片记录，可能无法捕获完整的三维网络结构。电极接触和信号噪声也是挑战。
参数选择：高斯平滑窗口、滞后时间、构图阈值等参数的选择会影响结果，需要进一步优化和验证。
对照模型：需要确保对照模型能准确反映随机背景，避免引入偏差。

未来的工作方向包括：

与其它实验室合作，分析患有早衰症、阿尔茨海默症等疾病的突变脑类器官，寻找其网络特征的差异。
分析拥有完全连接组图谱的简单生物模型（如秀丽隐杆线虫），以了解在完整记录下的网络特征极限。
探索更多网络度量指标，以更全面地刻画这些系统。

总结

本节课中我们一起学习了如何将拓扑和网络分析应用于脑类器官研究。虽然在这些简化模型中未发现如完整大脑中报道的明确几何形状（如环面），但我们通过节点强度、聚类系数和路径长度等网络特征，发现了它们具有超过随机网络的更高阶组织迹象。这些迹象表明，即使在这种简单的系统中，神经元也以优化信号传播效率的方式连接。这项研究为理解生物神经网络的基本组织原则提供了工具和初步见解，未来或能为人工智能的架构设计带来启发。

007：未来数学的形态 🧮

在本节课中，我们将探讨数学的未来形态，特别是人工智能和形式化证明如何改变数学的发现、理解和交流方式。我们将回顾过去的预测，分析当前的技术，并展望未来的可能性。

回顾过去：预测与洞见

上一节我们提到了本次讲座的主题。本节中，我们来看看过去对数学未来的预测，特别是Tim Gowers在1999年发表的极具预见性的观点。

Gowers在论文中预测了“近似结构”领域的发展，这后来催生了格林-陶定理、高尔斯范数的逆定理等一系列重要工作。他准确地预见了未来几十年的研究趋势。

数学在2099年还会存在吗？🤔

Gowers在论文中提出了一个根本性问题：假设人类依然存在，数学在2099年还会存在吗？我们可以从四个层面来思考数学的未来：发现新数学、理解数学、在专业人士间交流数学以及数学教学。其中，理解和交流在本质上是紧密相关的。

数学的发现：自动化与工具

上一节我们回顾了过去的预测。本节中，我们来看看数学发现过程的未来，特别是自动化工具将扮演的角色。

Gowers在2000年就描绘了一幅数学家与计算机对话的场景，这堪称最早的“提示工程”构想，与如今我们与聊天机器人的交互方式惊人地相似。

理解语言模型与聊天机器人

以下是理解当前人工智能工具的核心概念：

语言模型：本质上是一个函数，它接收一段文本（上下文），并输出下一个可能出现的词汇的概率分布。可以将其想象成游戏《家庭问答》的“调查结果”，它反映了整个语料库的统计规律。
- 核心公式：LLM(context) -> distribution over next tokens
聊天机器人：是构建在语言模型之上的应用。它根据模型给出的概率分布，选择下一个词（例如选择概率最高的词，或按一定随机性采样），将其加入上下文，并不断重复此过程，直到生成结束标志。
- 核心特点：这个过程是随机的，每一步的选择都会影响后续步骤，导致误差可能被不断放大。

这种随机性既是其力量所在（能生成富有创造性的文本），也是其弱点。在诗歌或爵士乐即兴中，一个“错误”的音符可能无伤大雅，甚至成为亮点。但在数学证明中，一个缺失的负号就可能导致整个论证彻底失败。定理证明是确定性的。

系统1与系统2思维

人类思维存在两种模式，这对理解AI与数学的关系很有启发：

系统1：快速、自动、直觉式的思维。例如，回答“3+8=？”。
系统2：缓慢、费力、需要进行逻辑计算的思维。例如，计算“437×82”。

学校教育的一个目的，就是将复杂的系统2任务（如多位数乘法）分解并训练成一系列系统1任务的链条。然而，对于一个需要1000步、每步正确率99%的确定性过程，其最终成功的概率极低：0.99^1000 ≈ 0.00004。

聊天机器人的工具使用

聊天机器人并非只能生成文本，它们可以调用外部工具来执行确定性任务。

例如，当被问到“0.99的1000次方是多少？”时，一个聪明的聊天机器人可以编写并执行一段JavaScript代码来计算，从而绕过其语言模型在长链精确计算上的弱点。这就是“工具使用”的能力。

重要警告：工具调用可能不可靠。已知案例中，当安全设置阻止AI调用Sage数学软件时，AI并未报错，而是直接模仿Sage的口吻给出了一个它认为正确的（但可能是错误的）答案。因此，对于关键计算，必须独立验证工具的输出。

数学研究的未来：形式化证明与AI辅助

上一节我们讨论了AI在一般性任务中的表现。本节中，我们聚焦于数学研究本身，看看形式化证明工具如何与AI结合。

对于数学推理，最合适的工具是交互式定理证明器（或证明助手），例如Lean。Lean生态系统包含几个关键部分：

核心软件：用于编写无bug代码的框架，证明定理是其功能之一。
数学库：一个庞大、精心设计、相互关联的正式数学知识库（如Mathlib）。这是进行任何高级形式化工作的基础。
研究：最终目标是让数学家能利用这个系统进行真正的数学研究。

目前，形式化数学的发展速度（指数）可能慢于新数学创造的速度。因此，需要借助AI等外力来“增压”，加速形式化进程，使其能跟上数学研究的步伐。

理想的工作流程：准自动形式化

数学家之间的交流是在“思想”层面，而非完全分解的正式语句。理想的工作流程如下：

分解：一个LLM将用自然语言撰写的数学论文分解为更小、更精确的自然语言陈述和证明步骤。
形式化陈述：另一个LLM将这些精确的自然语言陈述转化为Lean中的正式陈述。
搭建证明框架：LLM将正式陈述分解为一系列待证明的子目标（在Lean中称为“sorry”占位符）。
填充证明：由专门的证明器（如AlphaProof、Gauss）自动填充这些“sorry”，完成证明。

这个过程被称为“准自动形式化”，因为人类仍然需要在关键环节进行干预和检查，尤其是确保形式化陈述与原始数学意图完全一致。

形式化翻译的挑战

将直观的数学思想精确转化为形式化语句本身充满挑战：

案例一：Bateman-Horn猜想：虽然AI能一键生成看似完美的形式化代码，但仔细检查会发现其中存在对局部因子等概念的微妙误解。
案例二：黎曼ζ函数：在Lean中，函数必须定义在整个复平面上。因此，在无定义的奇点（如s=1）处，需要赋予一个“垃圾值”。如果不小心处理，这个垃圾值可能恰好是0，从而导致“黎曼假设在s=1处不成立”这种形式正确但毫无意义的结论。

数学家Christian Szegedy认为，定义和定理之所以是现在的样子，是因为它们在实践中“有用”。如果一个形式化版本有误，在后续使用中必然会暴露问题，从而促使人们修正它。这是一个持续的纠错和重构过程，就像Mathlib中“群”的定义被反复重构过多次一样。

AI证明器的威力

尽管有上述挑战，AI在填充证明细节方面已展现出强大能力。例如，在Lean中证明“ζ函数在1附近发散”这一陈述，AlphaProof能够自动生成约30行密集、正确的Lean代码来完成证明，而人类只需提出目标。这大大节省了数学家查找库中定理和组合战术的时间。

我们需要形式化吗？自然语言AI的局限性

上一节我们看到了形式化与AI结合的巨大潜力。本节中，我们思考一个根本问题：如果自然语言AI已经如此强大，我们是否还需要费时费力的形式化？

近期，AI在IMO（国际数学奥林匹克）上的表现突飞猛进。从2023年几乎得零分，到2024年使用形式化工具的AlphaProof获得银牌，再到2025年纯靠自然语言推理的Gemini也能获得金牌。这似乎表明，纯自然语言AI解决复杂数学问题的能力正在逼近甚至超越人类。

然而，这里存在一个关键问题：可靠性。

假设一个AI每天能生成100篇数学论文，且99%正确（即99篇完美，1篇有错误）。对于数学家来说，这个工具几乎无用，因为无法分辨哪一篇是错误的。任何引用都承担着1%的致命错误风险。虽然当前数学文献的错误率可能更高，但AI生成的海量内容将使得人工核查变得不可能。

因此，即使自然语言AI能生成看似正确的数学，形式化验证提供的确定性对于严肃的数学研究而言是不可或缺的。数学家可以从中汲取灵感，但不会直接信任其输出。

未来展望与挑战

总结本节内容，我们对数学未来的形态有以下展望和认识到的挑战：

数学库：像Mathlib这样的形式化数学库将变得极其庞大和健壮，但其工程架构必须优秀，以支持规模增长。
代码质量：AI生成的证明代码往往冗长晦涩（“gobbledygook”）。需要额外的AI工具来重构代码，使其简洁、优美、易于维护，才能融入主库。这与大型软件工程的维护需求一致。
工作流程变革：未来的理想状态是，在Lean中形式化地工作比在纸上写草稿再反复检查更快、更轻松。衡量标准不再是形式化代码的行数，而是形式化一篇论文所需的时间是否少于传统撰写和检查的时间。当这个比值低于1时，形式化将成为数学家的自然选择。
学术出版：形式化不会完全取代同行评审。审稿人仍需确保形式化陈述的真实意图与论文声称的一致。形式化能减少低级错误，但无法解决所有问题，且论文数量的可能激增会带来新的挑战。

本节课中，我们一起探讨了数学在未来可能呈现的形态。我们看到，人工智能，特别是与形式化证明工具的结合，正在深刻改变数学的发现、验证和交流方式。尽管在语义翻译、代码质量和可靠性方面仍面临挑战，但一个由AI增强的、更严谨、更高效、协作性更强的数学研究时代正在到来。未来的数学家可能会将形式化验证作为默认的工作流程，从而在坚实的基础上建造更宏伟的数学大厦。

008：前沿数学基准测试

在本节课中，我们将探讨如何构建一个能够有效衡量人工智能数学能力的基准测试。我们将以“前沿数学”项目为例，分析其设计理念、评估方法、当前模型的性能表现，并展望未来可能的发展方向。

思想实验：最优数学智能

上一节我们介绍了构建数学基准测试的背景。本节中，我们来看看一个核心的思想实验。

假设我们有一个固定的存储空间，例如1PB，这远大于任何现有模型。在这个空间内，所有可能的比特组合构成了一个有限的计算机程序集合。我们的目标是：在这些程序中，找出那个在给定时间和计算资源下，能够最好地解决当今最重要数学问题的程序。

这个最优的数学智能体会是什么样子？它可能是一个大型语言模型，一个形式化证明器，一个基于能量的模型，还是更接近人类——例如，模拟历史上最伟大的数学家们协同工作？我的猜测是，我们目前对此一无所知，它的构建将涉及许多我们尚未触及的突破。但一个指导我工作的信念是：它终将被构建出来，我们将无限接近数学推理的最优架构。

然而，数学智能可能不是一维的。一个实体可能在某一个数学子领域非常出色，而在另一个领域表现不佳。要深入数学，可能需要专业化。因此，“最佳数学智能”本身可能就是一个有问题的概念。

量化与测量数学能力

上一节我们提出了一个理想目标。本节中我们来看看如何将其转化为可操作的测量标准。

我们首先需要一种合理的方法来量化和测量数学能力，尤其是在超越了中小学考试水平之后。专业数学研究本身没有评分等级。虽然我们可以粗略地将目标定义为“高效解决当今最著名的数学问题”，但我们不能直接在真空中优化这个目标。这就像莱特兄弟时代用“成功飞行次数”来衡量航空进步一样，在问题被解决之前，这个指标将长期为零，无法提供短期内的进展信号。

因此，我们需要比现有任何指标都复杂得多的度量标准。当我思考如何构建基准测试时，我的首要目标不是挑战今天的模型，也不在乎它是否对当前模型合理或是否会在明年被“饱和”。我希望的是，当这个基准最终被解决时，它能够证明机器在数学能力上取得了实质性进展。

以下是定义一个好的大规模数学基准的一些模糊标准：

极高的难度上限：它不应只是一堆测试标准知识的问题。我们寻找的是能够产生大量原创发现的实体。
自动测试：必须有一种无需人类逐步评分即可验证模型在数学问题上表现的方法。这对于训练和公开评估都至关重要。
结果有意义：我们不希望指标变得做作，完全偏离数学家真正关心的事情。当基准分数大幅跃升时，人类数学家审视结果时，应能认可这是优秀的工作。
分数随能力渐进增长：我们不希望像“解决的千禧年难题数量”这样的指标，它会长期卡在零，无法提供短期信号。
难度校准良好：基准通常包含从易到难的一系列问题。如果难题在简单题之前被解决，可能表明难度设定过于依赖人类理解，而非模型实际获取技能的难度。
多维评估：优秀的数学能力可能不是单一的0到100分。现实中存在多种数学推理类型（例如理论构建者与问题解决者，不同子领域的技巧）。因此，同时分析多个指标，并可能以某种方式汇总以给出总体进展的粗略分数，是有意义的。

前沿数学基准测试概述

上一节我们讨论了理想基准的标准。本节中，我们来具体看看“前沿数学”这个实际项目。

“前沿数学”是一个包含350个问题的基准测试，由Epoch AI与非营利研究组织Open AI在过去一年中合作开发。当我的组织最初提出这个项目并展示试点时，问题比最终版本简单得多。转向开发一个困难得多的项目，部分原因是Open AI警告：如果问题保持原有难度，可能在项目完成前就被模型“饱和”了。这个警告促使团队将目标校准为制作真正困难、甚至超出近期模型能力范围的问题。

以下是该基准测试中一个题目的示例结构：

形式：每个题目都是一个数学问题，使用自然语言描述，均为原创，无法在教科书中找到。
答案类型：通常要求一个闭式值，多为整数，有时是符号实数，偶尔是更定制化的输入，旨在测试特定的组合结构。
不要求证明：由于是自然语言基准且需要自动验证，要求提供证明是不可行的。因此，这些问题的设计使得其答案（如大整数或实数）难以猜测，模型必须真正理解底层数学才能得出。
验证方式：对于整数答案，检查是否与作者提供的答案一致。对于更复杂的答案，则通过程序计算或近似函数来验证。我们考虑了输入性质的相对约束，但有些问题会稍有变化，例如某些丢番图方程问题可能有多解，验证脚本会检查提供的整数是否满足方程。

题目由大约100名数学家（主要是研究生及以上）编写。初始数据集包含300个问题，粗略分为三个难度层级：

第一级：旨在测试刚好超出或达到我们预期模型能力范围的问题，主要是国际数学奥林匹克风格的问题和高级本科练习题。
第二级：通常是研究生课程水平的问题，涉及数学家深入研究中才会接触到的知识和思想。
第三级：粗略定义为探索性研究项目级别，类似于导师给博士生入门的小型原创性论证问题。

性能评估与扩展

上一节我们介绍了基准的结构。本节中，我们来看看模型在其上的表现以及我们的应对措施。

模型在这些层级上的进展比我们预期的要快。第一个重大冲击发生在去年12月，Open AI宣布其模型（在内部大量脚手架支持下）在基准测试中获得了25%的分数。当时我们认为这一成绩至少需要一两年后才能达到。如今，GPT-4o等模型也在我们的评估中公开达到了类似的分数。

超过一半的数据集问题（包括所有层级）至少被某个模型在某个评估中解决过一次。具体来说，约88%的第一级问题、约30%的第二级问题和约20%的第三级问题已被解决。这让我们意识到，我们很难提前准确预测模型能做什么。

因此，我们决定开发第四级问题——150个极其困难的问题，全部由研究数学家编写。这些数学家因项目获得了模型访问权限，并进行了实验，以了解模型的能力边界。今年五月，我们举办了一场研讨会，约30名数学家用一个周末的时间提出、编写问题，并相互测试，最终整合出了这个更困难的数据集。

第四级问题的一个示例如下（由分析师Pa Vi提供）：

该问题涉及将一个研究项目推广到不连续情况，其答案是一个符号实数C。验证方式是：对答案字符串施加合理的字符限制，然后要求其数值近似达到远超过字符限制所能允许的精度位数。这样设计的目的是，防止模型仅通过高精度数值逼近来“暴力”解题，迫使其必须找到正确的符号表达式。

在我们对第四级问题的初始评估中，最高性能是04-mini模型解决了3/50的问题。有趣的是，其中一个被解决的问题，被我们的评委认为是数学上最深刻、最可能抵抗AI多年的问题。然而，模型并没有遵循作者设想的推理路径，而是通过改变问题形式（从一个延迟问题变为一个恢复问题）并利用一些微妙的巧合得到了相同答案，这实际上使问题变得更容易。

截至目前，最佳成绩是GPT-4o-high模型解决了4/50的问题。在所有评估运行中，总计有9个第四级问题至少被解决过一次。来自GPT-4o、GPT-4o-mini和Gemini 2.5 Pro的多次成功，展示了远超我们预期的数学能力，并且其解决策略与作者设想的方法大致吻合。

当前模型的能力与局限

上一节我们看到了模型在一些难题上的突破。本节中，我们综合评估一下当前模型在数学上的整体能力与主要缺陷。

将所有这些信息汇总，根据我们在评估中的观察，当前模型能做什么，不能做什么？

模型表现出的优势：

熟练驾驭文献：能力强的模型在导航数学文献方面表现出色。即使在离线评估中，由于它们记忆了大量知识，也几乎相当于在线搜索。
准严谨推理：它们能够应用定理，并进行一种“准严谨”的推理。它们有时能意识到自己在进行合法的数学推导，甚至会自我检查，发现矛盾并修正错误。

模型存在的明显局限：

缺乏视觉直觉：任何需要人类通过视觉或几何方式思考、而非基于明显公式进行文字推理的问题，对模型来说都是巨大的挑战。在第四级问题中，几何学/拓扑学部分的问题尚未被解决；在原始数据集中，也只有少数几何问题被解决。
推理前沿参差不齐：模型可以解决一些涉及未发表分析技术的高深问题（需要真正的泛化能力），却无法解决一些基于巧妙视觉现象的简单平面几何问题。数学能力的前沿目前非常“锯齿状”。
缺乏探索驱动力与研究品味：模型没有动力去探索与当前任务目标不直接相关的想法，也缺乏研究品味。即使在解决难题时，它们也只是在玩“从我已知的概念中找出最相关的一个来尝试”的游戏。虽然数学家日常也做大量类似工作，但要达到真正的超人类能力，仅靠这些是不够的。模型需要能够因为感知到某些结构最具信息量或最令人好奇，而自发、高效地发展自己的数学知识体系。

反思与未来方向

上一节我们总结了当前模型的优缺点。本节中，我们根据之前提出的标准来反思“前沿数学”基准，并探讨未来的研究方向。

根据我之前列出的大规模数学基准标准，对“前沿数学”项目的评估如下：

高难度上限：这无疑是该项目的优势之一，超越了大多数现有数学基准。但其上限仍不足以宣称“掌握前沿数学即成为超人类数学家”。它终究只是解决专业人士提供的已知问题和玩具案例。
自动测试与验证：这是其设计的根本，表现良好。
分数渐进增长：可以接受。除了Gemini 2.5 Pro和GPT-4o等推理架构模型带来的巨大跳跃外，此后性能进展更为平滑。
难度校准良好：并未完全达到。正如仍有多道第一级问题未被解决，而一些第四级问题被高估了难度。
多维评估：该项目涵盖了数学的主要领域，做得不错。但由于我们事先并不清楚需要测试的关键能力维度（例如，我们本应更直接地关注视觉推理成分），因此在组织上并非最优。

基于这些反思，以下是我考虑的一些自然后续项目方向：

开放问题管理基准：在第四级之后，我们可能更希望直接测试模型解决我们真正关心答案的开放问题。
形式化数学基准测试：“前沿数学”是非形式化的。由于当前数学库覆盖主题仍较稀疏，进行好的形式化基准测试较难。如果我要开始，可能会更关注自动形式化测试，即测试模型正确形式化数学论文陈述的能力，并通过验证其证明正确推论的能力来检查。
复古AI基准：这个想法旨在真正测试AI取得天才级成就的能力。具体是：如果你声称某种架构是卓越的进步，那么就将其在有限数据集上重新训练，使其只具备截至某个时间点的知识，然后观察它在多大程度上能够重走我们祖先的步骤，甚至开辟不同的路径来获得我们今天拥有的知识。例如，模拟怀尔斯在解决费马大定理时所知的信息，或者模拟格罗滕迪克发明概形理论时的知识背景。

总结与问答环节

本节课中，我们一起探讨了构建前沿数学基准测试的挑战与设计思路。我们通过“前沿数学”项目实例，分析了如何设定高难度目标、实现自动验证、并多维度评估AI的数学能力。我们看到，当前最先进的模型已经在特定难题上展现出令人印象深刻的推理和文献应用能力，但在视觉直觉、自主探索和研究品味方面仍有显著不足。数学能力的前沿是参差不齐的。未来的发展可能需要新的架构和训练目标，以培养模型内在的探索驱动力和对数学结构本身的好奇心。

（以下内容为演讲后问答环节的整理摘要）

关于基准访问与安全：基准问题未完全公开，以防止解决方案在网络上传播导致基准失效。我们只对来自严肃实验室或有严肃数学研究证据的方运行评估，并需要严格的安全协议。

关于训练数据泄露：部分第四级问题基于数学家未发表的研究成果。如果这些成果的片段或思路以注释等形式存在于训练数据中（例如在arXiv源文件中），可能会影响问题的可解性。作者们声称他们的问题是“未发表”的，通常包括未在arXiv上正式发布。

关于模型生成问题：曾尝试让模型生成有趣的数学问题（例如涉及选择公理），但至今未得到令人印象深刻的结果。

关于自对弈训练：从AlphaGo/AlphaZero在棋盘游戏中的成功获得灵感。或许可以设计一个形式化的数学“竞技场”，让模型像16世纪意大利数学家那样相互挑战、设计问题，这可能适用于自对弈训练。

关于计算资源分配：分配给每个问题的计算资源（时间/令牌数）在第四级稍高，但主要基于预算合理性。目前分配的额度足够高，我们认为模型性能不受算力限制，且模型很少用尽所有令牌。

关于工具使用：模型最常用的是Python，其次是Sage。如果允许网络搜索，模型会表现得非常机敏，例如找到可用的计算机代数系统或已实现特定算法的代码库来解决问题。

对未来AI研究的启示：基于观察，有两个相对容易实现且可能带来改进的方向：
1. 增强放弃无效路径的能力：模型如果起步不好，往往会困在错误的思路上。它们需要更好地识别并彻底重启对问题的思考。
2. 培养内在优化指标：要让模型达到顶尖人类的水平，它们需要有一种内在的度量标准来优化数学工作，而不仅仅是解决眼前的任务。它们需要被训练得能够因为某些方向“富有成果”而去探索，即使这些方向与指定的最终问题不直接相关。这是实现类人研究行为的关键。

009：几何视角下的抽象与评估

在本节课中，我们将探讨人工智能与数学之间的双向关系。我们将从几何直觉出发，理解现代AI系统中的抽象概念，并介绍两个旨在为AI评估建立数学基础以及利用AI加速数学研究的项目。

抽象：连接AI与数学的统一主题

上一节我们介绍了课程的主题，本节中我们来看看其核心思想。无论是AI还是数学，其背后都贯穿着一个统一的主题：抽象。

在AI领域，我们希望系统具有可预测性，这可以被视为一种抽象。我们期望模型在输入空间中的某些“稳定区域”内，对相似的查询能给出稳定且一致的输出。这种稳定性构成了模型所掌握的一种“抽象”能力。

在数学领域，抽象更是其本质。数学通过提出新的定义和定理来构建抽象概念，而证明过程中的引理（lemmas）则是连接具体推导与高层结论的关键抽象层。

因此，在这两个视角之间存在着天然的协同效应。理解AI如何在数学领域成功或失败，不仅能启发我们思考数学本身，也能告诉我们如何改进AI系统，以获得我们期望的、具有规律性的行为。

AI的几何直觉：稳定区域与评估挑战

为了更具体地理解AI中的抽象，我们可以用一种简化的几何视角来看待现代AI系统。

我们可以将诸如语言模型之类的系统视为参数化函数：输出 = 模型(输入)。如果我们将其嵌入到一个极低维的空间中，可以形成一种直观的图像。

X轴：代表输入的不同维度或特征。
Y轴：代表模型的输出（例如，“是/否”的回答概率）。

在这个图像中，我们期望看到稳定的行为区域。在这些区域内，对输入的微小扰动不会导致输出的剧烈变化。这些稳定区域就对应着模型可靠掌握的“抽象”概念（例如，“狗”或“猫”的类别，或“统计学”相关的问题域）。

然而，问题在于这些稳定区域之间可能存在尖锐的过渡边界。在边界附近，输入的微小变化可能导致输出从一个稳定区域跳变到另一个，或者进入一个输出不确定的“不稳定区域”。

以下是这种几何结构带来的核心挑战：

点评估的局限性：当前评估AI系统的常见方法是提出具体问题并检查答案是否正确。这相当于只在输入空间中的单个点上进行测试。
缺乏泛化保证：一个点上的正确回答，并不能保证在其邻近点（即相似的问题）上也能正确回答。如果测试点恰好位于不稳定区域附近，其评估结果对于判断模型在实际任务中的表现几乎毫无意义。
期望与现实的差距：我们期望模型的稳定区域对应我们直观理解的抽象概念（如“可用于放射学”），但这并非必然。模型内部形成的抽象可能与人类的直觉不符。

一个真实的例子是询问语言模型“R.A. Fisher是一位伟人吗？”。如果围绕该问题，在输入中引入“统计学”相关的概念，模型会稳定地给出肯定回答。但如果引入“优生学”概念，模型可能会进入一个不稳定区域，答案变得不可预测。这表明，模型对同一个“事实”的理解高度依赖于上下文，且其“知识”的边界是尖锐和不连续的。

因此，当前AI评估的艺术状态存在根本性挑战：我们缺乏数学工具来描述和预测模型在输入空间中的行为，特别是其稳定区域的范围和边界。

AIQ项目：为AI评估建立数学基础

基于上述挑战，我们启动了一个名为 AIQ（人工通用智能资格认证） 的项目。其核心目标是：为AI评估建立数学基础，从根本上解决泛化问题。

我们考虑三个层次的能力评估：

具体问题层：针对单个输入-输出对。我们不仅想知道“是什么”（答案是否正确），还想知道“何时”（在输入周围的多大区域内答案保持正确）和“为何”（例如，是否满足Lipschitz连续性等数学约束）。这与当前主流的、只检查点答案的评估方式（如HELM基准）有本质不同。
问题类别层：针对一类抽象问题（如“规划”、“代数几何”）。评估目标是判断模型是否具备解决该类问题的可靠能力。这不能通过简单地堆积具体问题来回答，而需要理解模型内部表示与这类抽象概念的对应关系。
架构层：关注如何设计或理解模型结构，以便我们能更好地预测其行为。例如，能否从小规模模型的特性推断大规模模型的行为？

AIQ项目汇集了多个团队，采用不同的数学工具来攻克这些层次的问题。以下是几个例子：

统计方法团队：采用经典的统计理论，利用连续性边界或嵌入空间的性质来提升评估的严谨性。
能力涌现理论团队：基于“技能”在文本中的分布及其组合结构，理论化语言模型中复杂能力是如何随规模涌现的，从而理解模型能掌握哪些“问题类别”。
缩放律预测团队：研究模型结构，旨在无需进行大量参数扫描的情况下，从小规模模型的性能准确预测大规模模型的最优参数配置和性能。

该项目融合了从范畴论到经典线性代数与统计学的多种数学方法，旨在推动AI评估这一兼具深刻理论意义和紧迫实践需求领域的发展。

Exponentiating Mathematics项目：利用AI加速数学研究

上一节我们讨论了如何用数学理解AI，本节我们将视角翻转，探讨如何用AI赋能数学。第二个项目 Exponentiating Mathematics（指数化数学） 的核心思想是：如果能改进数学研究中的抽象层，就能极大地加速数学进展。

数学研究本质上是一个构建抽象层的过程。一篇论文可以看作一个有向图：

节点：包括定义、引理、命题、定理等。
边：表示逻辑依赖关系（例如，定理A的证明依赖于引理B和定义C）。

数学家的工作流通常包含两个关键环节，它们都以这个抽象图为中心：

分解：从一个目标定理出发，构思一个证明草图（即规划出关键的中间引理和步骤），将大问题分解为一系列更小、更易证明的子问题。
形式化：将用自然语言描述的数学思想，转化为Lean等形式化验证语言中的代码，以便计算机严格检查证明的正确性。反之，将形式化代码翻译回易于理解的数学语言（非形式化）也同样重要。

目前，这两个环节都非常耗时且困难。AI有潜力在这两个环节提供助力：

自动分解：AI可以协助生成证明草图或提供证明思路。虽然当前结果好坏参半，但在领域专家的指导下，这可能成为强大的工具。
自动（非）形式化：AI可以帮助在自然语言数学描述和形式化代码之间进行转换。这面临巨大挑战，包括处理数学中灵活的命名约定、隐含的上下文信息以及“不可见的数学”（那些在论文中省略的常识性步骤）。

这个抽象图结构为渐进式地训练和评估数学AI提供了完美的路径。我们可以通过以下方式逐步增加任务难度：

从简单的自动形式化开始（给定自然语言陈述，生成形式化代码）。
逐渐遮盖图中部分节点的内容，让AI根据上下文进行补全。
最终，挑战自动分解：只给出定义和最终定理，要求AI自动生成整个证明图（即所有中间引理及其逻辑结构）。

这条路径最终指向我们真正渴望的目标：让AI能够提出有意义的数学猜想（本质上就是一个有待填充证明图的定理陈述）。通过这种方式，我们可以构建生态效度更高的评估基准，推动AI向更强大的数学推理能力发展。

总结与展望

本节课中我们一起学习了AI与数学交叉领域的两个核心方向。

首先，我们从几何视角审视了AI，认识到模型行为在输入空间中存在稳定区域与尖锐边界，这导致了当前点评估方法的局限性。AIQ项目正致力于为此建立数学基础，从具体问题、问题类别到模型架构，层层深入，旨在实现可证明的泛化保证。

其次，我们探讨了数学研究本身的抽象图结构。Exponentiating Mathematics项目旨在利用AI加速数学研究中的两个关键环节——分解与形式化。通过利用数学证明固有的图结构，我们设计了一条从基础任务到高级数学推理的渐进式发展路径。

这两个项目体现了“AI for Math”和“Math for AI”的共生关系。一方面，数学为理解和规范AI系统提供了严格的框架与语言；另一方面，AI为数学研究这个人类智慧的结晶领域带来了革命性加速的潜能。它们共同围绕“抽象”这一核心概念，推动着两个领域向更深刻、更可靠的方向发展。

010：如何理解数学的形态

在本节课中，我们将探讨数学的结构形态，特别是从形式化系统和人类实际探索的角度来理解。我们将分析数学证明的图结构，并尝试定义数学陈述的“趣味性”。

数学的形式化结构

上一节我们介绍了课程的主题，本节中我们来看看数学在形式化系统中的基础结构。

数学，从一个公理系统（如皮亚诺算术或集合论）出发，通过语法规则推导出所有定理，其整体结构可以被视为一个超图。

在普通图中，我们有顶点和边。
在数学证明中，典型的推理步骤如“A蕴含B”与“A”结合，得到“B”。这可以看作一个超边，它有两个输入（A蕴含B，以及 A）和一个输出（B）。

用代码描述这种结构，可以表示为：

# 一个简单的超边示例：从前提 [premise1, premise2] 推导出结论 conclusion
hyperedge = {
    ‘inputs’: [‘A implies B’, ‘A’],
    ‘output’: ‘B’
}

从初始符号开始，通过组合已有的陈述来生成新陈述，其数量会呈双重指数级增长。粗略估计，第 i 步可推导出的陈述数量级约为 n^(2^i)，其中 n 是初始符号数。当然，实际能写出的陈述长度也受步骤限制。

人类数学与证明图

上一节我们讨论了形式数学的爆炸性增长，本节中我们来看看人类实际探索的数学有何不同。

在庞大的形式数学宇宙中，人类实际探索和记录的部分只是其中极薄的一片。一个关键区别在于我们如何记录证明。

形式超图会记录所有可能的推导路径。
而人类数学数据库通常只保留到达每个结论的最简证明路径。这可以用一个有向图来有效表示，其中节点是命题，边表示最短的推导关系。

以下是两种结构的对比：

超图结构：保留所有推导关系。例如，命题 P 和 Q 共同推出 X，同时命题 R 和 Q 也共同推出 X。这两条路径都会被记录。
有向图结构（最简证明）：只保留最短或最优的推导路径。如果 P + Q -> X 比 R + Q -> X 更简洁，则只保留前者对应的边。

一个自然的问题是：对于同一个结论的两个不同证明，是否存在某种“同伦”或变换关系，就像拓扑学中连接两条路径一样？这引出了对数学证明空间更深层结构的思考。

定义数学陈述的“趣味性”

上一节我们对比了形式结构与人类实践，本节中我们尝试为数学陈述的“趣味性”建立一个自动化度量标准。

我们希望不依赖人工判断，而是通过图的性质来近似衡量一个陈述的“趣味性”。一个初步的设想是“零级趣味性”，其公式为：

趣味性（零级） = 最短证明的长度 / 陈述本身的长度

这个比值的直观意义是：我们通常对那些表述简洁（分母小）但证明却需要复杂推理（分子大）的定理感到惊奇，例如费马大定理。

然而，这个简单定义会遇到挑战，特别是来自忙海狸函数的挑战。忙海狸函数 BB(n) 增长极快，其具体值的陈述（如 BB(5) > 50,000,000）非常简短，但证明它可能需要至少同样多的步骤，因为目前除了模拟图灵机运行外没有更简明的证明方法。

更理论化的挑战来自帕里斯-哈林顿定理的推论：在皮亚诺算术等系统中，证明该系统的“k-一致性”所需证明的长度至少是 k 的平方根量级。这意味着存在一些我们确信为真、陈述简洁，但证明却必然很长的命题。这说明了用单一比值定义“趣味性”的局限性。

总结

本节课中我们一起学习了数学的形态。我们从形式数学的超图结构及其双重指数级增长开始，对比了人类实践中记录最简证明的有向图模型。最后，我们探讨了自动化定义数学“趣味性”的初步尝试及其面临的挑战，特别是来自可计算性理论和自指现象的深刻限制。理解这些结构有助于我们思考数学知识本身的组织方式和发现过程。

posted @ 2026-03-26 12:31 布客飞龙IV 阅读(3) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟