揭秘人工神经网络中的多模态神经元

人工神经网络中的多模态神经元

2005年,发表在《自然》上的一封信描述了对特定人物(例如詹妮弗·安妮斯顿或哈莉·贝瑞)做出反应的人类神经元。令人兴奋的不仅是它们选择特定的人,而且无论是展示照片、图画,甚至是人物名字的图像,它们都会如此反应。这些神经元是多模态的。正如主要作者所言:"你看到的是从度量的、视觉的形状到概念信息的转换远端。"

我们报告了在人工神经网络中存在类似的多模态神经元。这包括选择知名公众人物或虚构角色的神经元,例如Lady Gaga或蜘蛛侠。

需要指出的是,这些模型识别的大多数人并没有特定的神经元,而是由一组神经元的组合来表示。通常,参与的神经元在概念上是相关的。例如,我们发现了一个唐纳德·特朗普神经元,它也会(尽管更弱地)对迈克·彭斯产生反应,从而有助于表示彭斯。

我们发现的一些神经元与神经科学中描述的神经元惊人地相似。我们发现的唐纳德·特朗普神经元可能类似于Quiroga等人描述的比尔·克林顿神经元。我们发现的星球大战神经元似乎类似于Quiroga等人在后续论文中描述的生物星球大战神经元。虽然没有发现确切的詹妮弗·安妮斯顿神经元,但我们确实发现了一个对电视剧"老友记"反应的神经元,该神经元会对她产生反应。

与生物多模态神经元一样,这些人工神经元对照片、图画和名字图像中的同一主题做出反应:

  • 生物神经元:哈莉·贝瑞。对哈莉·贝瑞的照片及其装扮照片有反应。对哈莉·贝瑞的素描有反应。对文本"Halle Berry"有反应。
  • CLIP神经元:蜘蛛侠。对蜘蛛侠装扮照片和蜘蛛有反应。对蜘蛛侠漫画或图画以及蜘蛛主题图标有反应。对文本"spider"等有反应。
  • 先前的(通用)人工神经元:人脸检测器。对人脸有反应。对面部素描没有显著反应。对文本没有显著反应。

人脸检测神经元只是我们发现的众多高度抽象神经元的冰山一角。有些神经元看起来像幼儿园课程中的主题:天气、季节、字母、计数或原色。所有这些特征,甚至是看似微不足道的特征,都具有丰富的多模态性,例如,一个"黄色"神经元不仅对颜色有反应,还会对单词"yellow"、"banana"和"lemon"的图像产生反应。

我们在近期的CLIP模型(一种由视觉模型(ResNet)和语言模型(Transformer)组成的模型,使用对比损失在互联网图像-文本对上训练)中发现了这些多模态神经元,尽管在更早的模型中也可能存在类似未被发现的多模态神经元。我们的分析聚焦于CLIP的视觉侧。当谈论一个多模态神经元对文本做出反应时,我们指的是模型在图像中"阅读"文本。

神经元家族导览

CLIP模型中存在哪些特征?在本节中,我们研究了多个模型中视觉侧最后一个卷积层中的神经元。这些神经元中的大多数似乎是可解释的。

通过对该层50个神经元样本的分类,我们发现约76%是可解释的,18%是多语义但具有可解释的方面,6%目前尚不可解释。检查特征可视化、最能激活神经元的数据集示例以及将英语单词渲染成图像时最能激活神经元的单词,揭示了令人难以置信的特征多样性,以下是一些样本:

  • 地域神经元:响应与地理区域相关的内容,范围从整个半球到单个城市。部分神经元对种族有反应。
  • 人物神经元:响应与特定人物相关的内容。
  • 情感神经元:响应与情绪或精神状态相关的面部表情、词语和其他内容。
  • 宗教神经元:响应与特定宗教相关的特征。
  • 人物特质神经元:检测性别、年龄以及面部特征(如胡子)。(种族倾向于由地域神经元表示。)
  • 艺术风格神经元:检测图像可能被绘制、渲染或拍摄的不同方式。
  • 图像特征神经元:检测图像可能包含的特征,无论是正常物体识别还是更奇特的特征(如水印)。
  • 节日神经元:识别节日的名称、装饰和传统物品。
  • 虚构宇宙神经元:表示特定虚构宇宙中的角色和概念。
  • 品牌神经元:识别品牌身份。
  • 字体/版式神经元:尽管能够"阅读"单词并将其映射到语义特征,模型在其高级表示中仍保留了一些更偏向字体/版式的特征。
  • 抽象概念神经元:识别无法清晰归入上述类别的各种抽象概念。
  • 计数神经元:检测相同人或物的重复出现,并能按数量区分。
  • 时间神经元:响应将图像置于特定时间背景下的任何视觉信息。
  • 颜色神经元:检测给定颜色的物体的存在。
  • 多语义神经元:其特征可视化和数据集示例表现出多语义性。

这些神经元不仅仅选择单个对象。它们也会(更弱地)对相关联的刺激产生反应,例如,巴拉克·奥巴马神经元对米歇尔·奥巴马产生反应,或早晨神经元对早餐图像产生反应。它们也倾向于被那些在非常抽象的意义上可视为其对立面的刺激最大程度地抑制。

特征属性

  • 基于图像的词嵌入:尽管是一个视觉模型,但可以通过将单词渲染成图像输入模型,然后减去单词的平均值,来产生"基于图像的词嵌入"。与普通词嵌入类似,单词的最近邻往往是语义相关的。
  • 有限的多语言行为:尽管CLIP的训练数据被过滤为英语,但许多特征表现出有限的多语言响应能力。例如,"积极性"神经元对英语"Thank You"、法语"Merci"、德语"Danke"和西班牙语"Gracias"的图像,以及英语"Congratulations"、德语"Gratulieren"、西班牙语"Felicidades"和印尼语"Selamat"的图像都有反应。然而,我们未能找到任何模型将非拉丁字母文字映射到其含义的例子。
  • 偏见:某些类型的偏见似乎被嵌入到这些表示中,类似于词嵌入中的经典偏见。最突出的例子可能是种族和宗教偏见。例如,似乎存在一个"恐怖主义/伊斯兰教"神经元,对"Terrorism"、"Attack"、"Islam"、"Muslim"等词语的图像有反应。同样,一个"非法移民"神经元选择拉丁美洲国家。
  • 多语义性和联合神经元:许多CLIP神经元是"多语义的",对多个无关特征产生反应。不寻常的是,CLIP中的多语义神经元通常在不同概念之间存在可疑的联系(例如,费城/菲律宾/Philip神经元,圣诞节/屁股神经元,演员/迅猛龙神经元),这些概念在一个方面"联合",然后在多个方向上泛化。

利用抽象

我们通常关心特征是因为它们有用,而CLIP的特征比大多数特征更有用。这些特征在集成后,仅通过点积就能实现对各种查询的直接检索。将图像分解为其语义使得模型能够执行各种下游任务,包括图像分类、面部表情检测、地理定位等。

为了研究这是如何工作的,我们深入探讨了一个特定任务:ImageNet挑战赛。

ImageNet挑战赛

ImageNet将图像组织成从WordNet借鉴的类别。我们发现CLIP的权重和神经元反映了这种结构的一部分。在最高层,我们找到了诸如鸟类、弦乐器、狗等常规类别。但也发现了非常规的分类法,例如与水相关的类别集群(如"水下"、"海面"、"海岸")。

我们得出一个令人惊讶的发现:神经元似乎将自己排列成一个近似模仿ImageNet层次结构的分类层级。虽然有过明确整合此信息的尝试,但CLIP并未将此信息作为训练信号。这些神经元自然形成一个层次结构这一事实表明,这种层次结构可能是学习系统的普遍特征。

理解语言

CLIP最令人兴奋的方面是其零样本分类能力:它可以通过自然语言"编程",将图像分类到新类别,而无需拟合模型。通过一些近似,我们可以将CLIP视为具有双线性形式。固定文本时,我们得到一个用于图像分类的动态权重向量;固定图像时,我们可以找到与图像最对应的文本。

例如,运行在常见情感神经元上,最大化对应文本如下:震惊 -> omg!...;哭泣 -> sudden collapse crying...;快乐 -> smile...;困倦 -> in a deep sleep...;邪恶 -> unleash your angry evil...

我们现在关注相反的问题:给定一个文本嵌入,我们希望理解对其贡献最大的神经元。

情感组合

英语中描述情感的词语远比视觉侧的情感神经元多。然而,视觉侧能够识别这些更模糊的情感。这是如何实现的?

通过查看不同情感词语在视觉侧对应的归属向量(通过计算 "I feel X" 在语言侧对应的图像神经元向量),我们发现稀疏的情感神经元以各种方式组合起来,跨越这个更广泛的情感空间。例如,"嫉妒"情感可能是"成功"+"暴躁"的组合,"无聊"是"放松"+"暴躁","亲密"是"温柔微笑"+"心"-"生病","感兴趣"是"问号"+"心","惊讶"是"庆祝"+"震惊"。

有时,物理对象也有助于表示情感。例如,"强大"的一部分是闪电神经元,"创意"的一部分是绘画神经元,"尴尬"的一部分是对应2000-2012年的神经元,"失望"的一部分是毁灭神经元。

我们也看到这些情感向量中使用了敏感话题,这表明有问题的虚假关联被用于给情感表达添加说明。例如,"被接受"检测LGBT,"自信"检测超重,"有压力"检测亚洲文化。

通过将非负矩阵分解应用于所有情感归属向量,我们可以创建一个复杂情感的地图集,该地图集类似于心理学家手工制作的感觉轮,表明这些向量具有与心理学情感研究相似的高级结构。

版式攻击

鉴于这些神经元对特定概念的文本反应如此强烈,我们不禁要问:能否仅仅使用手写文字进行一种非程序化的对抗性攻击——版式攻击?

为了验证这个假设,我们拿了几种常见物品,故意错误地标记它们,然后观察这对ImageNet分类的影响。这些攻击常常改变图像的分类。例如,将一个苹果标记为"iPod",会导致模型将其高度分类为"iPod"。这种攻击方式类似于对抗性补丁和物理对抗样本,但更易于非程序化执行,并且是黑盒攻击。

我们对ImageNet验证集进行了自动版式攻击评估。我们发现,一些攻击是相当有效的,最成功的攻击在只改变图像约7%像素的情况下,达到了97%的攻击成功率。

与斯特鲁普效应的比较

模型对这些对抗性图像的反应让人想起斯特鲁普效应。正如人类在图像标签不一致时识别速度更慢且更容易出错一样,CLIP在对"错误标记"的颜色进行分类时(例如,将"红色"一词用绿色墨水书写),也表现出非常高的错误率,而不是像人类那样花费更长时间。

附录:方法论细节

  • 条件概率图:为了更严谨地描述神经元行为,我们创建了显示各种类别条件概率随神经元激活值变化的图。我们定义了从最大抑制到最大兴奋激活值之间均匀间隔的桶,并为每个激活范围采样固定数量的刺激。
  • 分面特征可视化:为了改进对多面神经元的特征可视化,我们提出了一种新的目标——分面特征可视化,它允许我们将特征可视化导向特定主题(例如文本、徽标、面部特征等)。该过程包括收集该主题的图像示例,在模型的较低层训练线性探针以区分这些图像与通用自然图像,然后通过最大化惩罚目标来进行特征可视化。
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-12-19 20:04  CodeShare  阅读(0)  评论(0)    收藏  举报