什么是-LLM-中的普遍性-如何找到普遍神经元-

什么是 LLM 中的普遍性？如何找到普遍神经元？

原文：towardsdatascience.com/what-is-universality-in-llm-and-how-to-find-universal-neurons/

什么是普遍性？

我们人类都是“初始化”不同的——我们出生时拥有不同的遗传基因。我们随后在不同的家庭中成长，拥有不同的背景，经历不同的事件。然而，想到我们的大脑最终会汇聚成相似的结构和功能，这真是令人着迷。我们可以将这种现象视为普遍的。

图片由作者提供：大脑中的普遍性

在 2020 年，Olah 等人提出了关于解释人工神经网络的三个推测性主张：

特征是神经网络的基本单元。
特征通过权重连接，形成电路。
在不同的模型和任务中形成类似的特征和电路。

第三项主张可能是最有趣的。它涉及普遍性，并表明不同的神经网络——即使是在独立数据集上训练——也可能收敛到相同的潜在机制。

有一个著名的例子：几乎所有在图像上训练的卷积网络的第一层都学会了高斯滤波器，它可以识别边缘和方向。

随着大型语言模型（LLMs）的快速发展，研究人员提出了一个自然的问题：我们能否在 LLMs 中也观察到普遍性？ 如果是这样，我们如何找到普遍神经元？

图片由 Olah 等人提供：在 4 个不同的视觉模型中发现的曲线检测电路

在这篇博客文章中，我们将关注一个简单的实验，并识别普遍神经元。更确切地说，我们将设计一个包含两个不同变换器的实验，看看我们是否能在它们之间找到任何普遍神经元。

请参阅笔记本以获取完整的 Python 实现。

快速回顾变换器

记住，变换器——尤其是它们的关键组件，注意力——无疑是现代大型语言模型成功背后的最大突破。在它们到来之前，研究人员多年来一直在使用如 RNNs 等模型，但未能取得显著性能。但变换器改变了这一切。

基本变换器块由两个关键组件组成：

多头自注意力：每个标记都会关注所有其他标记（之前），学习哪些标记对预测最重要。
前馈 MLP：在注意力之后，每个标记表示通过一个小型 MLP。

上述两个组件被包裹在残差连接（跳过连接）和层归一化中。

在这里，对我们来说最有趣的部分是每个块中的 MLP，因为它包含我们将分析以寻找通用性的“神经元”。

实验设置

我们使用两个微小的变压器设计了实验。

作者图像：实验步骤

请注意，我们的目标不是达到最先进的性能，而是创建一个玩具模型，我们可以从中感受到通用神经元的存在。

我们定义了一个包含以下内容的变压器结构：

嵌入 + 位置编码
多头自注意力
带有 ReLU 激活的 MLP 块
输出层映射到词汇大小。

现在，我们创建了两个独立初始化的微型变压器架构模型，model_a 和 model_b。尽管它们具有相同的架构，但由于它们具有不同的初始权重和针对 10,000 个不同随机样本的独立训练过程，因此可以将这些模型视为不同的。当然，模型是自监督训练的，学习根据前面的标记预测下一个标记。

通过相关性寻找通用性

一旦 model_a 和 model_b 都被训练，我们就在测试数据集上运行它们，并提取所有 MLP 激活值：再次，它们是 MLP 块中第一层线性层之后的隐藏值。因此，我们得到一个维度为 [num_samples, sequence_length, mlp_dim] 的张量。

这里有一个有趣的事情：我们现在将通过公式计算 model_a 和 model_b 中对应神经元的皮尔逊相关系数：

其中，at,i, bt,i 是在序列 model_a 和 model_b 中，时间 t 时神经元 i 的激活。

我们声称，如果一个神经元显示出高度相关性，这可能表明两个模型已经学习到了相似的特征，换句话说，这个神经元可能是通用的。

然而，并非所有相关性都会导致通用性。有可能一些相关性是由于…机会出现的。因此，我们将相关性与基线进行比较：对模型 _b 中的神经元应用随机旋转，即我们用随机旋转的神经元替换第二组神经元。

这种随机旋转将破坏两个模型之间的任何对齐，但仍然保留激活的分布。

最后，我们通过从实际相关性中减去基线来计算所谓的过剩相关性。

我们将具有高过剩相关性的神经元（超过 0.5）标记为两个模型之间的通用神经元。

请参阅笔记本以获取详细的 Python 实现。

结果

我们现在将查看结果。

首先，我们有一个比较基线与实际相关性的图表。我们看到基线相关性接近零；几个神经元的实际相关性要高得多，这表明观察到的对齐并非随机机会所致。

图片由作者提供：基线与实际相关性

现在，我们绘制了过剩相关性分布图。正如读者可能看到的，大多数神经元仍然具有非常低的过剩相关性。然而，有一小部分神经元远远高于 0.5 的阈值。这些神经元（直方图上的绿色点）被识别为通用神经元。

图片由作者提供：相关性分布

我们分析的结果为两个独立训练的 Transformer 中存在通用神经元提供了明确的证据。

结论

在这篇博客文章中，我们介绍了 LLMs 的概念。我们分析了不同的微型 Transformer。我们能够在两个模型中识别出一些通用神经元。这些神经元可能捕捉到相似的特征。

这些发现给读者留下了这样的印象，即神经网络，尤其是 LLMs，可以收敛到相似的内机制。当然，我们的研究集中在小型模型和有限的样本集上，最终结果与最先进的性能无关。但这种方法为在更大模型中找到普遍性提供了一种可能性。

posted @ 2026-03-28 09:41 布客飞龙II 阅读(6) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

人最大的痛苦就是说一些自己都不相信的话。