人工智能与生物智能中的遗忘机制研究

人工智能与动物智能中遗忘的重要性

深度神经网络在特定学习任务中表现出接近人类水平的性能,从语音识别到图像中的物体查找。但深度神经网络是如何学习的?它包含什么"信息"?这些信息如何表示,存储在哪里?学习过程中深度神经网络的信息内容如何变化?

信息定义与测量

为了从数学角度构建这些问题,我们需要形成深度网络中"信息"的可行定义。传统信息理论建立在克劳德·香农的思想基础上,旨在量化传输消息所需的比特数。但正如香农本人指出的,这是通信信息的度量。当应用于衡量深度神经网络在其权重中包含的关于其试图解决的任务的信息量时,它往往会产生退化的无意义值。

这一悖论导致了信息拉格朗日量的引入——它将信息定义为层间权重可添加的噪声量与由此产生的输入输出行为准确性之间的权衡。直观地说,即使网络非常大,这表明如果我们可以用随机噪声替换大部分计算并仍然获得相同的输出,那么深度神经网络实际上并不包含那么多信息。

学习过程中的信息动态

随着学习的进行,人们可能期望存储在网络权重中的信息量单调增加:训练越多,学习越多。然而,权重中的信息遵循完全不同的路径:首先,权重中包含的信息急剧增加,仿佛网络试图获取关于数据集的信息。随后,权重中的信息下降——几乎就像网络在"遗忘",或丢弃关于训练数据的信息。令人惊讶的是,这种遗忘发生在学习任务性能继续提高的同时!

当我们与生物学家分享这些发现时,他们并不感到惊讶。在生物系统中,遗忘是学习的重要方面。动物大脑的容量有限。持续需要忘记无用信息并巩固有用信息。

临界学习期

生物网络还有另一个基本特性:它们随着时间的推移失去可塑性。如果人们不在发展的关键时期学习某项技能,他们学习该技能的能力就会永久受损。这在人类中很常见,例如,在儿童时期未能足够早地矫正视觉缺陷可能导致终身弱视——即使后来矫正了缺陷。

深度神经网络是否具有临界学习期?我们着手重复神经科学先驱Hubel和Wiesel的经典实验,他们在50年代和60年代研究了猫出生后暂时性视觉缺陷的影响,并将这种现象与后来的永久性视觉障碍相关联。

我们通过在训练开始时模糊训练图像来"蒙住"深度神经网络的眼睛。然后我们让网络在清晰图像上训练。我们发现,在初始阶段引入的缺陷导致了永久性缺陷,无论网络执行了多少额外的训练。

换句话说,深度神经网络像生物系统一样表现出临界学习期。如果我们在"信息获取"阶段干扰数据,网络将进入无法恢复的状态。在这个关键期之后改变数据没有影响。

信息可塑性

然后我们执行了类似于"人工神经记录"的过程,并测量了不同神经元之间的信息流。我们发现在关键期内,信息在层间流动的方式是流动的。然而,在关键期之后,这些方式变得固定。与神经可塑性不同,深度神经网络表现出某种形式的"信息可塑性",其中处理信息的能力在学习过程中丧失。但这种"遗忘"似乎是学习的基本组成部分,这对人工和生物系统都是如此。

实际应用:Task2Vec

在随后的几年中,我们试图理解和分析这些与学习相关的动态,这些动态对人工和生物系统是共同的。我们发现了丰富的发现宇宙。我们的一些学习成果已经进入我们的产品中。

例如,在人工智能中,训练一个深度神经网络模型来解决一个任务——比如在图像中查找猫和狗——然后对其进行微调以用于不同的任务——比如为自动驾驶应用识别对象是很常见的。但是我们如何知道从什么模型开始解决客户问题?两个学习任务何时"接近"?我们如何数学表示学习任务,以及如何计算它们的距离?

Task2Vec是一种用简单向量表示学习任务的方法。这个向量是前面讨论的权重中信息的函数。从一个模型微调到另一个模型所需的信息量是这两个模型代表的任务之间的(不对称)距离。我们现在可以衡量将给定模型微调用于给定任务的难度。

结论

人工智能确实处于起步阶段。该领域提出的知识问题的深度令人振奋。目前,对于我们这些正在衰老并开始忘记事情的人来说,有一种安慰。我们可以从我们仍在学习的知识中得到安慰。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-10-16 21:10  CodeShare  阅读(0)  评论(0)    收藏  举报