我们没有发明注意力--我们只是重新发现了它

我们没有发明注意力——我们只是重新发现了它

towardsdatascience.com/we-didnt-invent-attention-we-just-rediscovered-it/

每隔几个月，总有人声称他们发明了革命性的 AI 架构。但当你看到相同的数学模式——选择性放大+归一化——独立地从梯度下降、进化和化学反应中涌现出来时，你就会意识到我们并没有通过 Transformer 架构发明注意力机制。我们重新发现了支配任何系统在能量约束下处理信息的根本优化原则。将注意力视为放大而非选择，暗示了特定的架构改进，并解释了为什么当前的方法有效。在这里的八分钟时间给你一个可以指导未来十年系统设计的思维模型。

当 Vaswani 和同事们于 2017 年发表“Attention Is All You Need”时，他们认为他们提出了革命性的东西[1]。他们的转换器架构完全放弃了循环网络，转而依赖注意力机制来同时处理整个文本序列。其数学核心很简单：计算位置之间的兼容性分数，将它们转换为权重，并使用这些权重进行信息的选择性组合。

但这种模式似乎在信息处理系统面临复杂性的资源约束下独立出现。并非因为存在某种普遍的注意力法则，而是因为某些数学结构似乎代表了基本优化问题的收敛解决方案。

我们可能正在观察那些罕见的情况之一，其中生物学、化学和 AI 通过共享的数学约束而不是共享的机制，在相似的计算策略上达成共识。

五亿年的实验

注意力类似机制的生物证据非常深刻。通过竞争性抑制实现空间注意力的视顶盖/上丘系统，在脊椎动物中表现出非凡的进化保守性[2]。从鱼类到人类，这个神经网络架构在超过五亿年的进化过程中保持了结构和功能的连续性。

但也许更有趣的是收敛的进化。

独立的谱系多次发展了类似注意力的选择性处理：昆虫的复眼系统[3]、头足动物的照相机眼睛[4]、鸟类的层次视觉处理[5]和哺乳动物的皮层注意力网络[2]。尽管这些系统的神经网络架构和进化历史大相径庭，但它们在选择性信息处理方面趋向于相似解决方案。

这引发了一个引人入胜的问题：我们是否看到了证据，表明存在基本的计算约束，这些约束决定了复杂系统在资源限制下如何处理信息？

即使是简单的生物也表明这种模式具有惊人的可扩展性。线虫（C. elegans），只有 302 个神经元，在寻找食物和避免捕食者时表现出类似注意力的行为[6]。植物表现出类似注意力的选择性资源分配，将生长反应指向相关的环境刺激，而忽略其他刺激[7]。

进化上的保守性引人注目，但我们应谨慎对待直接的等价性。生物注意力涉及由进化压力塑造的特定神经网络，这些压力与产生 AI 架构的优化景观截然不同。

注意力作为放大：重新审视机制

最近的理论工作从根本上挑战了我们理解注意力机制的方式。哲学家 Peter Fazekas 和 Bence Nanay 证明了传统的“过滤器”和“聚光灯”隐喻从根本上误解了注意力的实际作用[8]。

他们断言，注意力并不选择输入——它以一种非刺激驱动的方式放大突触前信号，与内置的归一化机制相互作用，创造出选择性的外观。他们确定的数学结构如下：

放大：增加某些输入信号的力量
归一化：内置机制（如除法归一化）处理这些放大的信号
表面选择：这种组合创造出看似选择性的过滤效果

图 1：注意力并不过滤输入——它放大某些信号，然后归一化创建出明显的选择性。就像带有自动增益控制的音频混音器，结果看起来是选择性的，但其机制是放大。图片由作者提供。

这个框架解释了神经科学中看似矛盾的研究发现。如增加放电频率、感受野减少和周围抑制等效应，都源自同一基本机制——放大与独立于注意力的归一化计算相互作用。

Fazekas 和 Nanay 专注于生物神经网络系统。这个放大框架是否扩展到其他领域的问题仍然悬而未决，但数学上的相似性是有启发性的。

化学计算机和分子放大

最令人惊讶的证据可能来自化学系统。Baltussen 及其同事证明了糖基化反应——一个涉及甲醛、二羟基乙酮和金属催化剂的自动催化反应网络——可以执行复杂的计算[9]。

图 2. 化学计算机在行动中：在一个搅拌反应器中混合五种简单的化学物质，会发生一些惊人的事情——化学汤学会了识别模式、预测未来的变化，并将信息分类。无需编程、无需训练、无需硅芯片。只是分子在做数学。这个形式反应网络使用与 ChatGPT 的注意力机制相同的选择性放大原理处理信息，但它仅通过化学自然进化。图片由作者提供。

该系统在多达 10⁶种不同的分子物种上表现出选择性放大，在非线性分类任务上实现了> 95%的准确率。不同的分子物种对输入模式有不同的反应，通过选择性放大创造出看似化学注意力的现象。值得注意的是，该系统在（500 毫秒到 60 分钟）的时间尺度上运行，与生物和人工注意力机制重叠。

但化学系统缺乏表征生物注意力的层次控制机制和学习动态。然而，数学结构——选择性放大产生明显的选择性——看起来惊人地相似。可编程自催化网络提供了额外的证据。例如，像 Nd³⁺这样的金属离子可以创建双相控制机制，根据浓度加速或抑制反应[10]。这产生了可控的选择性放大，通过纯化学过程实现布尔逻辑函数和多项式映射。

信息论约束和普遍优化

这些不同领域的收敛可能反映了更深层次的数学必要性。信息瓶颈理论提供了一个正式框架：任何具有有限处理能力的系统都必须解决最小化信息保留同时保留任务相关细节的优化问题[11]。

约翰·卡博夫斯基在信息热力学方面的研究揭示了信息处理上的普遍能量限制[12]。计算的基本热力学界限为所有能够进行计算的基质的效率选择处理机制创造了选择压力：

信息处理需要能量，因此高效的注意力机制具有生存/性能优势，其中σ代表熵（S）的产生速率，ΔI 代表信息处理能力。

无论任何系统——无论是大脑、计算机，甚至是化学反应——在处理信息时，都必须以废热的形式释放能量。你处理的信息越多，你必须浪费的能量就越多。由于注意力机制处理信息（决定关注什么），它们必须缴纳这种能量税。

这为高效架构创造了普遍压力——无论是进化设计大脑、化学组织反应，还是梯度下降训练变压器。

在临界性下运行的神经网络——秩序与混沌的边缘——在保持稳定性的同时最大化信息处理能力。经验测量表明，人类的意识注意力恰好发生在这些临界转变点[14]。在训练期间，transformer 网络表现出类似的相变，将注意力权重组织在信息处理优化的临界点附近[15]。

这表明，在系统面临处理能力和能量效率之间的基本权衡，且资源受限的情况下，可能存在类似注意力的机制。

收敛数学，而非通用机制

证据指向一个初步结论。我们可能不是在发现通用机制，而是在见证类似优化问题的收敛数学解决方案：

数学结构——选择性放大与归一化相结合——在这些领域普遍存在，但底层机制和约束差异很大。

对于 transformer 架构，这种重新表述提出了具体的见解：

Q·K 计算实现放大。

点积 Q·K^T 计算查询和键表示之间的语义兼容性，作为一个学习的放大函数，其中高兼容性分数放大信号通路。缩放因子√d_k 防止高维空间中的饱和，保持梯度流。

Softmax 归一化创建赢家通吃动态

Softmax 通过分式重归一化实现竞争归一化。指数项放大差异（赢家通吃动态），而求和归一化确保Σw_ij = 1。从数学上讲，这个函数等同于分式归一化。

加权 V 组合产生明显的选择性

在这种组合中，没有显式的选择算子，它基本上是值向量的线性组合。明显的选择性来自 softmax 归一化诱导的稀疏模式。高注意力权重在没有显式门控机制的情况下创建有效的门控。

softmax(amplification)的组合在值空间上诱导赢家通吃动态。

对 AI 发展的启示

将注意力视为放大+归一化而不是选择，为 AI 架构设计提供了几个实用的见解：

分离放大和归一化：当前的 transformer 将这几种机制混为一谈。我们可能探索解耦它们的架构，允许更灵活的归一化策略，超越 softmax [16]。
非内容基础放大：生物注意力包括“非刺激驱动”的放大。当前的变换器注意力完全是基于内容的（Q·K 兼容性）。我们可以研究学习到的位置偏差、特定任务的放大模式或元学习到的放大策略。
局部归一化池：生物学使用“周围神经元的池”进行归一化，而不是全局归一化。这表明可以探索局部注意力邻域、跨层的分层归一化或动态归一化池选择。
关键动力学：注意力在临界点附近运作的证据表明，有效的注意力机制应表现出特定的统计特征——幂律分布、雪崩动力学和临界波动[17]。

开放性问题与未来方向

几个基本问题仍然存在：

数学上的相似性有多深？我们是在看到真正的计算等价性还是表面的相似性？
化学水库计算能教给我们关于最小注意力架构的什么？如果简单的化学网络可以实现类似注意力的计算，这将对 AI 注意力的复杂性要求有何启示？
信息论约束是否预测了在扩展 AI 系统中的注意力进化？随着模型变得更大并面临更复杂的环境，注意力机制是否会自然进化到这些通用优化原则？
我们如何将关于分层控制和适应的生物洞察力整合到 AI 架构中？静态变换器注意力和动态生物注意力之间的差距仍然很大。

结论

注意力故事似乎更多是关于再发现，而不是发明。无论是形式反应的化学网络、上位丘的神经网络，还是变换器架构的学习权重，我们都能看到数学主题的变体：选择性放大与归一化相结合，以创建明显的选择性。

这并不减少变换器架构的成就——如果有什么的话，它表明它们代表了一种超越其特定实现的根本计算洞察。在资源限制下有效信息处理的数学约束似乎推动不同的系统走向相似解决方案。

随着我们继续扩展 AI 系统，理解这些更深层次的数学原理可能比直接模仿生物机制更有价值。注意力类似处理的趋同进化表明，我们正在处理基本的计算约束，而不是工程选择。

自然通过 500 亿年的进化探索了这些优化景观。我们通过几年的梯度下降重新发现了类似的解决方案。现在的问题是，对这些数学原理的理解是否可以引导我们找到超越生物和当前人工方法甚至更好的解决方案。

最后的备注

真正的考验：如果有人阅读了这篇文章并因此设计出更好的注意力机制，那么我们就创造了价值。

感谢阅读——并分享！

Javier Marin

应用人工智能顾问 | 生产人工智能系统 + 监管合规

[email protected]

参考文献

[1] Vaswani, A.，等（2017）。注意力即一切。《神经信息处理系统进展》，30，5998–6008。

[2] Knudsen, E. I.（2007）。注意力的基本成分。《神经科学年度评论》，30，57–78。

[3] Nityananda, V.，等（2016）。昆虫中的类似注意力的过程。《皇家学会 B 类学报》，283(1842)，20161986。

[4] Cartron, L.，等（2013）。乌贼的视觉物体识别。《动物认知》，16(3)，391–401。

[5] Wylie, D. R.，& Crowder, N. A.（2014）。用于 3D 场景分析的鸟类模型。《IEEE 汇刊》，102(5)，704–717。

[6] Jang, H.，等（2012）。神经调节状态和性别通过 C. elegans 中的拮抗性突触通路指定替代行为。《神经元》，75(4)，585–592。

[7] Trewavas, A.（2009）。植物行为与智能。《植物，细胞与环境》，32(6)，606–616。

[8] Fazekas, P.，& Nanay, B.（2021）。注意力是放大，而非选择。《英国科学哲学杂志》，72(1)，299–324。

[9] Baltussen, M. G.，等（2024）。自组织反应网络中的化学库计算。《自然》，631(8021)，549–555。

[10] Kriukov, D. V.，等（2024）。探索自催化化学反应网络的编程能力。《自然通讯》，15(1)，8649。

[11] Tishby, N.，& Zaslavsky, N.（2015）。深度学习与信息瓶颈原理。《arXiv 预印本 arXiv:1503.02406*》。

[12] Karbowski, J.（2024）。信息热力学：从物理学到神经科学。《熵》，26(9)，779。

[13] Beggs, J. M.，& Plenz, D.（2003）。新皮层回路中的神经元雪崩。《神经科学杂志》，23(35)，11167–11177。

[14] Freeman, W. J.（2008）。神经动力学：中观脑动力学探索。Springer-Verlag。

[15] 高，J.，等（2016）。复杂网络中的通用弹性模式。《自然》，530(7590)，307–312。

[16] Reynolds, J. H.，& Heeger, D. J.（2009）。注意力的归一化模型。《神经元》，61(2)，168–185。

[17] Shew, W. L.，等（2009）。神经元雪崩表明皮质网络在临界性时具有最大动态范围。《神经科学杂志》，29(49)，15595–15600。

posted @ 2026-03-28 10:11 布客飞龙IV 阅读(12) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟