神经信息处理前沿:回顾AI发展并展望新方向

神经信息处理前沿:回顾AI发展并展望新方向

在大型语言模型引发的当前热潮之外,是始于2012年(或2010年)的深度学习革命余波。然而,哥伦比亚大学教授Richard Zemel见证了这一领域更早的起源。在20世纪80年代末90年代初,作为多伦多大学的博士生,Zemel在“深度学习教父”之一Geoffrey Hinton的指导下,撰写了关于无监督机器学习系统中表示学习的论文。

Zemel同时也是深度学习领域主要会议——神经信息处理系统大会(NeurIPS,于本周举行)顾问委员会的成员。他广泛的经验为审视深度学习领域提供了独特的视角——包括它走了多远以及它将去向何方。

“从某种意义上说,它已经走了很长一段路,体现在相关问题的范围和整个现实世界的适用性方面,”Zemel说,“但许多相同的问题依然存在。只是现在比以前有了更多的层面。”

例如,以鲁棒性的概念为例,这是指机器学习模型在推理时看到的数据因噪声、数据分布漂移等原因与训练数据不同时,保持性能的能力。

“最早的神经网络应用之一是ALVINN(自动化陆地车辆的神经网络),出现在80年代末,”Zemel说。“它是一个有29个隐藏单元的神经网络,是对某机构自动驾驶挑战的回应。在当时是神经网络的一大成功。”

“鲁棒性在那里就出现了,因为他们担心汽车会偏离道路,而他们没有任何此类训练样本。他们找出了如何用这类训练样本来增强数据的方法。所以三十年前,鲁棒性就被视为一个重要问题,并且提出了一些想法。”

如今,数据增强仍然是确保鲁棒性的主要方法之一。但正如Zemel所说,鲁棒性问题有了新的层面。

“例如,我们可以将算法公平性视为鲁棒性的一种形式,”他说。“这是针对特定群体的鲁棒性。用于此目的的很多方法同样是针对鲁棒性开发的方法,反之亦然。例如,它们被表述为试图开发具有某种不变性的预测。在深度学习领域,你可能不仅仅是开发一个预测:你试图开发具有这些属性的表示。最终的表示层应该是不变的。想象一下多类物体识别:任何属于K类的物体,无论来自何种环境,其表示分布都应该非常相似。”

Zemel表示,对于生成式AI模型,评估鲁棒性变得甚至更加困难。在实践中,最常见的机器学习模型直到最近都是分类器,它输出给定输入属于几个类别中每一个的概率。衡量分类器鲁棒性的一种方法是确定其预测概率——即对其分类的置信度——是否能准确反映其在数据上的表现。如果模型过度自信,它可能无法很好地泛化到新环境。

但对于生成式AI模型,没有这样的置信度指标可供参考。

“如果现在系统忙于写句子,不确定性意味着什么?”Zemel问道。“如何讨论不确定性?在生成模型确实运行良好的时代,构建鲁棒、置信度合适、负责任的系统这个整体问题变得困难得多。”

神经类比

NeurIPS首次举办于1986年,在早期,该会议既是神经科学家使用计算工具建模大脑的论坛,也是计算机科学家使用类脑模型进行计算的研究场所。

“其‘神经’部分已被工程方面所淹没,”Zemel说,“但对它一直有活跃的兴趣。并且一直存在着一些松散——以及不那么松散——的灵感借鉴。”

例如,今天的生成式AI模型通常是Transformer模型,其标志性组件是注意力机制,该机制决定在生成输出时关注输入的哪些方面。

“这项工作的部分根源实际上在于认知科学,在某种程度上也在于神经科学,”Zemel说。“神经科学和认知科学已经研究注意力很长时间了,特别是空间注意力:观察场景时你关注什么?我们在模型中也一直在考虑空间注意力。大约十年前,我们从事图像描述工作,其理念是,当系统为描述生成文本时,你可以看到它关注图像的哪一部分。当它输入下一个词时,它聚焦于图像的某个部分。”

“这与Transformer中的注意力略有不同,在那里他们更进一步,一个层可以关注网络另一层的活动。这是一个类似的想法,但它是应用于同一想法的自然深度学习版本。”

最近,Zemel表示,计算机科学家似乎对神经科学和认知科学能教给他们什么重新产生了兴趣。

“我认为,随着人们试图扩展系统规模,使其用更少的数据工作,或者随着模型变得越来越大,并且通过整个系统进行反向传播效率低下,有时甚至不可能,这种兴趣正在回归,”他说。“大脑在不同的尺度上有有趣的结构。存在具有不同功能的不同种类的神经元,而我们的神经网络中并没有这些。也没有明确的地方对应被认为大脑重要组成部分的短期记忆和长期记忆。也许存在获得这种架构性支撑结构的方法,这可能有助于改进神经网络和机器学习。”

新前沿

在Zemel思考深度学习的未来时,两个研究领域让他觉得特别有趣。

“其一是这个称为‘机械可解释性’的领域,”他说。“你能理解并影响这些系统内部发生的事情吗?证明你理解正在发生事情的一种方法是进行一些改变并预测该改变的结果。我不是在谈论理解一个特定单元或特定神经元的作用。更像是,我们希望对生成模型做出这种改变;我们如何在不添加新数据或进行事后处理的情况下实现这一点?你真的能进入并改变网络的行为方式吗?”

“另一个是我们讨论过的想法:我们能否为系统添加归纳偏置、添加结构、添加某种知识——可以是逻辑,可以是概率——以使这些系统变得更加高效,用更少的数据、更少的能源进行学习?现在有太多问题悬而未决,我认为现在是从事该领域研究的绝佳时机。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-12-08 08:03  CodeShare  阅读(3)  评论(0)    收藏  举报