什么是-LLM-中的普遍性-如何找到普遍神经元-

什么是 LLM 中的普遍性?如何找到普遍神经元?

原文:towardsdatascience.com/what-is-universality-in-llm-and-how-to-find-universal-neurons/

什么是普遍性?

我们人类都是“初始化”不同的——我们出生时拥有不同的遗传基因。我们随后在不同的家庭中成长,拥有不同的背景,经历不同的事件。然而,想到我们的大脑最终会汇聚成相似的结构和功能,这真是令人着迷。我们可以将这种现象视为普遍的

图片

图片由作者提供:大脑中的普遍性

在 2020 年,Olah 等人提出了关于解释人工神经网络的三个推测性主张:

  1. 特征是神经网络的基本单元。

  2. 特征通过权重连接,形成电路。

  3. 在不同的模型和任务中形成类似的特征和电路。

第三项主张可能是最有趣的。它涉及普遍性,并表明不同的神经网络——即使是在独立数据集上训练——也可能收敛到相同的潜在机制。

有一个著名的例子:几乎所有在图像上训练的卷积网络的第一层都学会了高斯滤波器,它可以识别边缘和方向。

随着大型语言模型(LLMs)的快速发展,研究人员提出了一个自然的问题:我们能否在 LLMs 中也观察到普遍性? 如果是这样,我们如何找到普遍神经元?

图片

图片由 Olah 等人提供:在 4 个不同的视觉模型中发现的曲线检测电路

在这篇博客文章中,我们将关注一个简单的实验,并识别普遍神经元。更确切地说,我们将设计一个包含两个不同变换器的实验,看看我们是否能在它们之间找到任何普遍神经元。

请参阅笔记本以获取完整的 Python 实现。

快速回顾变换器

记住,变换器——尤其是它们的关键组件,注意力——无疑是现代大型语言模型成功背后的最大突破。在它们到来之前,研究人员多年来一直在使用如 RNNs 等模型,但未能取得显著性能。但变换器改变了这一切。

基本变换器块由两个关键组件组成:

  1. 多头自注意力:每个标记都会关注所有其他标记(之前),学习哪些标记对预测最重要

  2. 前馈 MLP在注意力之后,每个标记表示通过一个小型 MLP。

上述两个组件被包裹在残差连接(跳过连接)和层归一化中。

在这里,对我们来说最有趣的部分是每个块中的 MLP,因为它包含我们将分析以寻找通用性的“神经元”。

实验设置

我们使用两个微小的变压器设计了实验。

作者图像:实验步骤

请注意,我们的目标不是达到最先进的性能,而是创建一个玩具模型,我们可以从中感受到通用神经元的存在。

我们定义了一个包含以下内容的变压器结构:

  • 嵌入 + 位置编码

  • 多头自注意力

  • 带有 ReLU 激活的 MLP 块

  • 输出层映射到词汇大小。

现在,我们创建了两个独立初始化的微型变压器架构模型,model_a 和 model_b。尽管它们具有相同的架构,但由于它们具有不同的初始权重和针对 10,000 个不同随机样本的独立训练过程,因此可以将这些模型视为不同的。当然,模型是自监督训练的,学习根据前面的标记预测下一个标记。

通过相关性寻找通用性

一旦 model_a 和 model_b 都被训练,我们就在测试数据集上运行它们,并提取所有 MLP 激活值:再次,它们是 MLP 块中第一层线性层之后的隐藏值。因此,我们得到一个维度为 [num_samples, sequence_length, mlp_dim] 的张量。

这里有一个有趣的事情:我们现在将通过公式计算 model_a 和 model_b 中对应神经元的 皮尔逊相关系数

其中,at,i, bt,i 是在序列 model_a 和 model_b 中,时间 t 时神经元 i 的激活。

我们声称,如果一个神经元显示出高度相关性,这可能表明两个模型已经学习到了相似的特征,换句话说,这个神经元可能是通用的。

然而,并非所有相关性都会导致通用性。有可能一些相关性是由于…机会出现的。因此,我们将相关性与基线进行比较:对模型 _b 中的神经元应用随机旋转,即我们用随机旋转的神经元替换第二组神经元。

这种随机旋转将破坏两个模型之间的任何对齐,但仍然保留激活的分布。

最后,我们通过从实际相关性中减去基线来计算所谓的过剩相关性

我们将具有高过剩相关性的神经元(超过 0.5)标记为两个模型之间的通用神经元。

请参阅笔记本以获取详细的 Python 实现。

结果

我们现在将查看结果。

首先,我们有一个比较基线与实际相关性的图表。我们看到基线相关性接近零;几个神经元的实际相关性要高得多,这表明观察到的对齐并非随机机会所致。

图片由作者提供:基线与实际相关性

现在,我们绘制了过剩相关性分布图。正如读者可能看到的,大多数神经元仍然具有非常低的过剩相关性。然而,有一小部分神经元远远高于 0.5 的阈值。这些神经元(直方图上的绿色点)被识别为通用神经元。

图片

图片由作者提供:相关性分布

我们分析的结果为两个独立训练的 Transformer 中存在通用神经元提供了明确的证据。

结论

在这篇博客文章中,我们介绍了 LLMs 的概念。我们分析了不同的微型 Transformer。我们能够在两个模型中识别出一些通用神经元。这些神经元可能捕捉到相似的特征。

这些发现给读者留下了这样的印象,即神经网络,尤其是 LLMs,可以收敛到相似的内机制。当然,我们的研究集中在小型模型和有限的样本集上,最终结果与最先进的性能无关。但这种方法为在更大模型中找到普遍性提供了一种可能性。

posted @ 2026-03-28 09:41  布客飞龙II  阅读(6)  评论(0)    收藏  举报