Catalyzing next-generation Artificial Intelligence through NeuroAI
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Nature Communications, 2023, 14(1): 1597
Abstract
长期以来,神经科学一直是人工智能(AI)进步的重要驱动力。我们建议,为了加速AI的进步,我们必须投资于NeuroAI的基础研究。其中的一个核心组成部分是具体的图灵测试,该测试挑战人工智能动物模型以与活体动物相似的技能水平与感觉运动世界互动。具体的图灵测试将重点从游戏和语言等特别发达或独特的人类能力转移到了那些从5亿多年的进化中继承下来的所有动物共享的能力。构建能够通过具体图灵测试的模型将为下一代人工智能提供路线图。
在未来几十年里,人工智能(AI)将以与上半个世纪的计算机革命一样深刻的方式改变社会和世界经济,而且可能会以更快的速度。这场AI革命为释放人类创造力和促进经济增长提供了巨大的机会,使工人不再从事最危险和最卑微的工作。然而,要达到这一潜力,我们仍然需要进步,使AI的能力更像人类。从历史上看,神经科学一直是AI进步的关键驱动力和灵感来源,尤其是那些使AI在人类和其他动物擅长的领域更加熟练的领域,如视觉、基于奖励的学习、与物理世界的互动和语言1,2。它仍然可以发挥这个作用。为了加速AI的进步并实现其巨大潜力,我们必须投资于“NeuroAI”的基础研究。
当前AI革命的种子是几十年前播下的,主要是研究人员试图了解大脑是如何计算的。事实上,最早建立“人工大脑”的努力导致了现代“冯·诺依曼计算机体系结构”的发明,为此,约翰·冯·诺伊曼明确利用了他在20世纪40年代所能获得的非常有限的大脑知识4,5。后来,David Hubel和Torsten Wiesel在猫新皮层视觉处理电路方面的诺贝尔奖获得工作启发了深度卷积网络,这些网络催化了现代AI的最近革命6-8。同样,强化学习的发展直接受到了对学习过程中动物行为和神经活动的深入了解的启发9-15。现在,几十年过去了,ANN和RL的应用来得如此之快,以至于许多观察家认为,人类级智能的长期难以捉摸的目标——有时被称为“人工通用智能”——就在我们的掌握之中。然而,与业内人士的乐观态度形成鲜明对比的是,许多一线AI研究人员认为,在我们能够构建出能够完成人类甚至小鼠等简单得多的动物所能完成的所有任务的人工系统之前,还需要取得重大突破。
尽管AI系统可以在象棋16和围棋17等游戏中轻松击败任何人类对手,但它们并不健壮,在面对新情况时往往会遇到困难。此外,尽管最近的进展令人鼓舞,但我们还没有建立一个有效的系统,可以走到架子上,取下象棋,设置棋子,并在比赛中移动它们。同样,没有任何机器可以筑巢、觅食浆果或照顾幼崽。今天的AI系统无法与四岁儿童甚至简单动物的感觉运动能力竞争。驾驭新情况所需的许多基本能力——动物毫不费力地拥有或获得的能力——对AI来说似乎具有挑战性,部分原因是AI系统甚至缺乏与不可预测的世界互动的基本能力。越来越多的AI研究人员怀疑,仅仅扩大目前的方法就能克服这些限制。鉴于需要在AI中实现更多的自然智能,很可能需要从自然智能系统中获得新的灵感19。
从历史上看,许多关键的AI进步,如卷积神经网络和强化学习,都受到了神经科学的启发。神经科学继续提供指导——例如,基于注意力的神经网络大致受到大脑中注意力机制的启发20-23,但这通常是基于几十年前的发现。AI和神经科学之间的这种交流远没有过去那么常见,这意味着错过了一个机会。在过去的几十年里,通过NIH BRAIN倡议和其他倡议,我们积累了大量关于大脑的知识。NeuroAI这一新兴领域是神经科学和AI的交叉点,其前提是更好地理解神经计算将揭示智能的基本成分,并催化AI的下一次革命。这将最终产生具有与人类相匹配的能力的人工智能体。我们倡导的NeuroAI计划是基于这样一种认识,即AI在历史上很大程度上归功于神经科学,并承诺AI将继续从中学习——但前提是有足够多的研究人员精通这两个领域。我们认为,现在是时候进行大规模的努力来识别和理解生物智能的原理,并将其抽象化以应用于计算机和机器人系统。
人们很容易把注意力集中在智能行为中最具人性特征的方面,比如抽象思维和推理。然而,智力适应性、灵活性和从稀疏观测中做出一般推断的能力的基本成分已经以某种形式存在于已经进化了数亿年的基本感觉运动回路中。正如AI先驱Hans Moravec24所说,抽象思维“是一种新的技巧,可能不到10万年……之所以有效,是因为它得到了这些更古老、更强大但通常是无意识的感觉运动知识的支持。” 这意味着,开发通用AI的大部分工作可以通过构建与动物的感知运动能力相匹配的系统来实现,而随后实现人类水平智能的步骤将要小得多。这是一个好消息,因为在第一个目标上的进展可以依赖于神经科学研究的受试者——大鼠、小鼠和非人灵长类动物——广泛而快速扩展的行为和神经数据集可以为其提供指导。因此,我们相信,如果我们弄清楚所有动物在与世界的具体感觉运动互动中所拥有的核心能力,NeuroAI路径将带来必要的进步。
NeuroAI grand challenge: the embodied turing test
1950年,Alan Turing提出了“模仿游戏”25,以测试机器表现出与人类无法区分的智能行为的能力(图1, 左)。在这个现在被称为图灵测试的游戏中,一名人类裁判评估真实人类和经过训练模仿人类反应的机器之间的自然语言对话。通过专注于对话能力,图灵回避了机器是否能“思考”的问题,他认为这个问题是不可能回答的。图灵测试基于一种隐含的信念,即语言代表了人类智慧的顶峰,一台能够对话的机器肯定是智能的。
直到最近,还没有一个人工系统能够接近通过图灵测试。然而,一类被称为“大型语言模型”的现代人工智能系统现在可以进行令人惊讶的令人信服的对话26。在某种程度上,他们的成功揭示了我们是多么容易被欺骗,将智力、能动性甚至意识归咎于对话者27。尽管这些系统令人印象深刻,因为它们没有建立在现实世界的经验基础上,但它们仍在与因果推理和物理常识的许多基本方面作斗争。因此,图灵测试并没有探究我们与物理世界互动和推理的惊人感知和运动能力,这些能力是与动物共享的,并通过无数代的自然选择磨练出来的。
因此,我们提出了一个扩展的“具身图灵测试”,其中包括高级感觉运动能力(图1, 右)。最初的图灵测试的精神是建立一个简单的定性标准,根据这个标准可以判断我们在制造AI机器方面的进展。这一具身图灵测试将对人工系统与人类和其他动物的相互作用进行基准测试和比较。类似的想法以前也有人提出过28-32。然而,鉴于最近的进展使得能够进行大规模的行为和神经测量,以及在计算机中对具身智能体进行大规模模拟,我们认为现在时机已经成熟,可以在这个方向上进行大规模的研究。由于每种动物都有自己独特的能力,每种动物定义了自己的图灵测试:人造海狸可能会被测试建造水坝的能力,而人造松鼠则可能被测试跳过树木的能力。尽管如此,几乎所有动物都有许多核心的感觉运动能力,动物快速进化适应新环境所需的感觉运动技能的能力表明,这些核心技能提供了坚实的基础。这意味着,在开发出一个人工智能系统来忠实地再现一个物种的行为后,这个系统对其他物种甚至人类的适应可能是直接的。下面我们重点介绍了物种之间的一些共同特征。
Animals engage their environments
动物的决定性特征是它们能够以有目的的方式四处移动并与环境互动。尽管最近在最优控制、强化学习和模仿学习方面取得了进展,但机器人在控制身体和操纵物体方面,甚至在模拟中,仍远未达到动物水平的能力。当然,神经科学可以提供关于模块化和层次化架构的指导,这些架构可以适应人工系统,赋予它们这些能力33。它还可以为我们提供部分自主性(在没有高层模块输入的情况下,层次结构中的低层模块如何半自主地工作)和分散控制(最初由缓慢的规划过程产生的运动如何最终转移到快速的自反应系统)等设计原则。这些原理可以指导感知、动作选择、运动以及四肢、手和手指的精细控制系统的设计。了解特定的神经回路如何参与不同的任务,也可以启发其他形式的“智能”的解决方案,包括在更多的认知领域。例如,我们发现,结合低水平电机控制的电路原理可以为AI系统中的高水平电机规划提供更好的基础。
Animals behave flexibly
另一个目标是开发人工智能系统,该系统可以参与大量灵活多样的任务,与动物个体可以产生的令人难以置信的行为相呼应。现代人工智能只需在屏幕上使用像素和游戏分数,就可以很容易地学会在Breakout等视频游戏中超越人类34。然而,与人类玩家不同,这些系统很脆弱,对小扰动非常敏感:稍微改变游戏规则,甚至改变输入上的几个像素,都可能导致灾难性的低性能35。这是因为这些系统学习从像素到动作的映射,而不需要理解游戏中的智能体和目标以及控制它们的物理。同样,自动驾驶汽车本身并不知道板条箱从前面的卡车上掉落的危险,除非它确实看到过板条箱从卡车上掉落导致不良后果的例子。即使它已经接受过关于板条箱坠落危险的训练,该系统也可能会将一个空塑料袋从前面的车里吹出来视为一个需要不惜一切代价避免的障碍,而不是一种刺激,因为它实际上不知道塑料袋是什么,也不知道它在身体上有多不威胁。这种无法处理训练数据中没有出现的场景的情况,对广泛依赖AI系统是一个重大挑战。
要想在一个不可预测和不断变化的世界中取得成功,智能体必须具有灵活性,并利用其对新情况可能如何发展的一般知识来掌握新情况。这可以说是动物所做的。由于进化和发展,动物天生具备茁壮成长所需的大部分技能,或者可以从有限的经验中快速获得这些技能,这要归功于它们在现实世界互动中的强大基础36。因此,很明显,为特定任务从头开始训练并不是动物获得令人印象深刻的技能的方式;动物不会来到这个世界,然后依靠大型标记训练集来学习。尽管机器学习一直在寻求避开这种表格限制的方法,包括自监督学习、迁移学习、持续学习、元学习、一次性学习和模仿学习37,但这些方法都无法达到大多数动物的灵活性。因此,我们认为,理解为现实世界中的行为灵活性奠定基础的神经回路级原理,即使是在简单的动物身上,也有可能大大提高人工智能系统的灵活性和实用性。换言之,我们可以利用进化在38-45已经参与的优化过程,大大加快我们对用于现实世界交互的通用回路的搜索。
Animals compute efficiently
我们的大脑已经克服了现代AI的一个重要挑战,那就是能源效率。训练神经网络需要大量的能量。例如,训练一个大型语言模型,如GPT-3,需要超过1000兆瓦-小时,足以为一个小镇供电一天46。相比之下,生物系统的能效要高得多:人类大脑消耗大约20瓦特47。大脑和计算机之间能量需求的差异源于信息处理的差异。首先,在算法层面,现代大规模ANN,如大型语言模型26,依赖于非常大的前馈架构,随着时间的推移对处理序列进行自注意力23,忽略了处理序列信息的潜在递归能力。其中一个原因是,目前我们没有有效的机制来计算循环网络中的信度分配。相比之下,大脑利用灵活的循环架构,可以非常有效地解决时序信度分配问题。揭示发生这种情况的机制可能使我们能够提高人工系统的能源效率。或者,有人提出,相邻树突棘内的突触动力学可以作为学习序列结构的机制,这一方案可能在硬件中有效实现48。其次,在实现层面上,神经电路不同于数字计算机。尽管存在不可靠或“有噪声”的组件,神经电路仍能有效地进行计算。例如,突触释放,神经元之间的主要通信手段,可能非常不可靠,以至于每十条信息中只有一条被传输49。此外,神经元主要通过传递动作电位(脉冲)进行交互,这是一种异步通信协议。与传统数字元素之间的相互作用一样,神经元的输出可以被视为0和1的字符串;但与数字计算机不同的是,“1”(即脉冲)的能量成本比“0”高出几个数量级50。由于生物回路在脉冲稀疏的状态下工作,即使是非常活跃的神经元也很少以每秒100个脉冲以上的速率发放,并且典型的皮层发放率可能低于每秒1个脉冲,因此它们的能量效率要高得多51。在最近的硬件实现中,基于脉冲的计算也被证明是成数量级的更快和更节能52。
A roadmap for solving the embodied Turing test
如何开发通过具身图灵测试的人工系统?一种自然的方法是在我们进化史的指导下循序渐进地这样做。例如,几乎所有的动物都进行目标导向的运动;它们向某些刺激(如食物来源)移动,远离其他刺激(如威胁)。在这些基本能力的基础上,还有更复杂的技能,例如将不同的感官信息流(如视觉和嗅觉)结合起来的能力,利用这些感官信息来区分食物来源和威胁的能力,导航到以前的位置的能力,权衡可能的奖励和威胁以实现目标的能力,并以精确的方式与世界互动,为实现这些目标服务。这些能力和许多其他复杂的能力在某种程度上都存在于非常简单的生物体中,比如蠕虫。在更复杂的动物中,如鱼类和哺乳动物,这些能力被详细阐述,并与新的策略相结合,以实现更强大的行为策略。
这种进化的观点提出了一种通过具身图灵测试的策略,将其分解为一系列相互构建的具有递增挑战性的测试,并在此系列上迭代优化53。具体来说,具身图灵测试包括挑战,包括神经科学研究中使用的各种生物体,包括蠕虫、苍蝇、鱼类、啮齿动物和灵长类动物。这将使我们能够利用我们积累的关于这些模型生物的行为、生物力学和神经机制的大量知识,准确定义每个物种特定的图灵测试,并作为强大的归纳偏差,指导开发能够通过测试的强大AI控制器。
这些人工系统的性能可以与动物的性能进行比较。现在已经收集了丰富的行为数据集,代表了一个物种的大量行为图,可以部署这些数据集来对特定物种的具身图灵测试的性能进行基准测试。此外,这些数据集正在迅速扩展,并提供了3D视频图形中的新工具54-57。此外,详细的生物力学测量支持高度逼真的动物身体模型,包括骨骼约束、肌肉、肌腱和爪子特征58。再加上强大、快速的物理模拟器和虚拟环境的开源59,60,这些模型将为在计算机上进行大规模的图灵测试研究提供机会33。最后,现有的广泛的神经数据集,在行为过程中跨多个大脑区域同时进行神经记录,再加上越来越详细的神经解剖和连接组学,为设计AI系统提供了一个强大的路线图,该系统可以控制虚拟动物来重现其体内同类的行为,从而通过具身图灵测试。
重要的是,每个物种的具身图灵测试可以根据不同研究群体的需求进行调整。我们可以测试AI系统在感觉运动控制、自监督和持续学习、泛化、短期和终身记忆引导行为以及社交互动方面的能力。尽管有这些潜在的不同兴趣领域,但构成具身图灵测试的挑战可以被标准化,以便量化研究进展和比较研究成果。利益相关者可以促进标准化,包括政府和私人资助者、Allen研究所等大型研究组织以及国际大脑实验室等大型合作,着眼于开发通用API和支持竞争,这是机器学习和机器人技术取得重大进展的重要推动力61,62。最终,通过在机器人方面的额外努力,能够成功再现感兴趣行为的虚拟生物可以适应物理世界,并被部署来解决现实世界的问题。
What we need
实现这些目标需要在三个主要领域部署大量资源。首先,我们必须培养新一代AI研究人员,他们在工程/计算科学和神经科学领域同样得心应手。这些研究人员将利用几十年来神经科学的进步,为AI研究指明全新的方向。最大的挑战将是确定如何利用神经科学、计算科学和其他相关领域的协同作用和重叠来推进我们的探索:确定大脑电路、生物物理和化学的哪些细节是重要的,以及在应用于AI时可以忽略哪些细节。因此,迫切需要受过AI和神经科学双重训练的研究人员应用神经科学的见解来推进AI,并帮助设计产生与AI相关的新见解的实验。尽管已经有一些此类研究,但它在很大程度上处于主流神经科学的边缘;到目前为止,神经科学的训练主要是为了改善人类健康和理解大脑。例如,领域之间缺乏一致性可能解释了Hubel和Wiesel对视觉系统结构的发现6与卷积神经网络在现代机器学习中的发展和应用8之间长达数十年的差距。因此,NeuroAI研究项目的成功取决于研究人员群体的形成,对他们来说,训练的理由是利用神经科学和AI之间的协同作用。明确设计新的训练计划可以确保NeuroAI研究社区反映整个社会的人口统计,并配备所需的道德工具,以确保AI的发展造福社会63。
其次,我们必须创建一个能够开发和测试这些虚拟智能体的共享平台。在创建迭代的、具身的图灵测试和进化人工生物以通过它的过程中,我们将面临的最大技术挑战之一是所需的计算能力。目前,在专门的分布式硬件64上,仅在单个具体任务(例如,在三维空间中控制身体)上训练一个大型神经网络模型可能需要几天时间。为了让多个研究小组在越来越复杂的图灵测试中迭代合作,在多代人中优化和评估大量智能体,需要在共享计算平台上进行大量投资。就像物理学中的粒子加速器或天文学中的大型望远镜一样,这种大规模的共享资源对于推动受大脑启发的AI研究议程至关重要。这将需要一项重大的组织努力,在政府的支持下,最好还有行业的支持,以动物和类人智能方面的科学进步为中心目标。
第三,我们必须支持神经计算的基础理论和实验研究。在过去的几十年里,通过美国国立卫生研究院的努力,我们对大脑有了大量的了解,这在很大程度上要归功于大脑倡议和其他主要资助者,我们现在正在了解大脑中单个细胞元件、神经元的巨大多样性,以及它们如何作为简单电路的一部分发挥作用,我们准备将注意力转移到理解大脑作为一个综合智能系统的功能上。这将需要深入了解1000亿个不同类型的神经元是如何连接在一起的,每个神经元都与数千个其他神经元进行通信,具有可变的、适应性强的连接,以及计算能力,即出现的智能。我们必须对大脑进行逆向工程,以抽象出基本原理。利用神经科学和人工智能之间的强大协同作用,需要项目和基础设施的支持来组织和实现跨学科的大规模研究。
幸运的是,现在人们普遍认为,对人工智能研究的投资对人类的技术未来至关重要。事实上,IARPA(智能高级研究项目活动)是这一领域的先驱,启动了皮层网络机器智能(MICrONS)项目。该项目率先收集了一个前所未有的数据集,该数据集由小鼠连接的一部分和相关的功能反应组成,其具体目标是促进下一代AI算法的开发65。尽管如此,要想在神经科学和AI领域架起桥梁,社区范围内的努力将需要政府资源的大力投资,以及对项目里程碑的监督、商业化支持、道德规范,以及对创新理念的大力投资。在美国,目前有一些联邦资源,如美国国家科学基金会的国家人工智能研究院,明确致力于推动神经科学研究中的AI创新和发现,但这些资源在很大程度上是为了支持传统的学术模式,由不同的小组调查不同的问题,而不是创建一个可以创建类似于具身图灵测试的集中工作。同样,美国的AI支持拨款主要是通过美国国立卫生研究院、美国国家科学基金会、美国国防部甚至美国环境保护局提供的辅助项目,每个项目都有自己的指令和目标,全球资助机构都共享这一模式。这就为技术开发本身留下了巨大的资金缺口。通过现有实体或作为一个独立机构制定总体指令,支持NeuroAI和AI研究,将推动这一使命,从而释放AI造福人类的潜力。
Conclusions
尽管神经科学推动人工智能进步的历史悠久,未来也有巨大的发展潜力,但该领域的大多数工程师和计算科学家都不知道这一历史和机遇。神经科学对塑造冯·诺依曼、图灵和其他计算理论巨人思维的影响,在典型的计算机科学课程中很少被提及。NeurIPS等领先的人工智能会议曾经展示了计算神经科学和机器学习的最新进展,现在几乎只关注后者。即使是一些意识到神经科学在塑造这一领域中的历史重要性的研究人员,也经常认为它已经失去了相关性。“工程师研究鸟类不是为了制造更好的飞机”是人们常说的一句话。然而,这种类比失败了,部分原因是航空先驱确实研究过鸟类66,67,有些人仍然在研究68,69。此外,这种类比在更基本的层面上也失败了:现代航空工程的目标不是实现“鸟级”飞行,而人工智能的一个主要目标确实是实现(或超过)“人类级”智能。正如计算机在许多方面超过了人类,比如计算素数的能力,飞机在速度、航程和货运能力等方面也超过了鸟类。然而,如果航空工程师的目标确实是建造一台具有“鸟类水平”的机器,能够在茂密的森林树叶中飞行并轻轻地落在树枝上,那么他们最好密切关注鸟类是如何做到这一点的。同样,如果人工智能的目标是实现动物水平的常识性感觉运动智能,研究人员最好向动物学习,以及它们在不可预测的世界中进化出的行为解决方案。
