Deep and Beautiful. The Reward Prediction Error Hypothesis of Dopamine
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
2. Reward-Prediction Error Meets Dopamine
3. Reward-Prediction Error and Incentive Salience: What Do They Explain?
4. Explanatory Depth, Reward-Prediction Error and Incentive Salience
4.1. Depth as scope, reward-prediction error and incentive salience
4.2. Depth as invariance, reward-prediction error and incentive salience
根据多巴胺的奖励预测误差假设(RPEH),中脑多巴胺能神经元的相位活动表示特定事件的预测奖励与当前经历的奖励之间存在差异。可以说这个假设是深刻,优雅和美丽的,代表了计算神经科学的最大成功之一。本文研究了这种说法,为现有文献做出了两点贡献。首先,它对公式化定义RPEH和随后获得成功的主要步骤进行了全面的历史描述。其次,根据这一历史记录,它解释了RPEH在哪种意义上具有解释性,在何种情况下可以合理地认为它比多巴胺的刺激显著性假设更深远,多巴胺可以说是目前RPEH最重要的替代方案。
Keywords: 多巴胺(Dopamine);奖励预测误差(Reward-Prediction Error);解释深度(Explanatory Depth);刺激显著性(Incentive Salience);强化学习(Reinforcement Learning)
根据多巴胺的奖励预测误差假设(RPEH),中脑特定区域中的多巴胺能神经元的相位活动表示特定事件的预测奖励与当前经历的奖励之间存在差异。RPEH被广泛认为是计算神经科学的最大成功之一。计算神经科学的先驱,著名的认知科学家Terrence Sejnowski在RPEH上指出,2012年,他受到在线杂志Edge.org的邀请回答以下问题:"您最喜欢的深刻,优雅或优美的解释是什么?"认知和脑科学领域的一些研究人员会同意,这一假设"已经成为神经科学中[用于解释多巴胺能活动和基于奖励的学习]的标准模型"(Caplin&Dean, 2008, p.663)。即使在批评者中,RPEH的"惊人的优雅"和"美丽的严谨"也得到认可(Berridge, 2007, p.399 and p.403)。
但是,通过多巴胺能传递编码信息的类型以及它在认知和行为中的功能作用,很可能会超出奖励预测误差范畴。RPEH并不是关于中脑多巴胺能活动编码哪种类型信息的唯一可用假设(参见Berridge, 2007; Friston, Shiner, FitzGerald, Galea, Adams et al., 2012; Graybiel, 2008; Wise, 2004)。当前的证据并不能明确地支持这一假设,关于RPEH在多大程度上得到现有证据的支持仍存在分歧(Dayan&Niv, 2008; O'Doherty, 2012; Redgrave&Gurney, 2006)。一方面,有人声称:"迄今为止,没有其他选择像多巴胺的预测误差理论那样令人信服,并具有多方向的实验支持"(Niv & Montague, 2009, p.342);另一方面,有人提出反诉,说RPEH是一种"优雅的幻想",而"到目前为止,激励显著性预测[即,关于多巴胺的另一种假设的预测]似乎最切合多巴胺假设相互矛盾的情况下的数据"(Berridge, 2007, p.424)。
那么RPEH如何变得如此成功?它到底能解释什么?并且,考虑到RPEH的美观和优雅至少在直觉上没有争议,在哪种意义上可以认为RPEH比其他的更深?本文通过首先重建导致RPEH制定和随后取得成功的主要历史事件来解决这些问题(第2节)。
在此历史背景下,阐明了RPEH解释的内容和方式,并将其与激励显著性假设(可以说是目前最突出的替代方法)进行了对比。阐明了这两个假设仅与多巴胺能活动编码的信息类型有关。特别是,RPEH具有双重作用,可以准确地描述基于奖励的学习和决策过程中大脑中的多巴胺能相活动的动态特征,并通过引用多巴胺能相活动的代表性作用来解释这种特征。如果RPEH为真,则由中脑多巴胺能神经元及其阶段性活动组成的机制将执行学习面对期望奖励时该做什么的任务,并据此做出决策(第3节)。
最后,本文阐述了在什么条件下,基于RPEH的学习、动机或决策现象的某些解释比基于激励显著性假设的某些替代解释有理由被认为更深入。考虑了两个解释深度的说明。据一种说法,更深入的解释性概括具有更广的范围(例如,Hempel, 1959);另一种说法是,更深入的解释性概括显示出更多的不变性(例如Woodward and Hitchcock, 2003)。有人认为,尽管现在认为基于RPEH的解释实际上比基于激励显著性假设的替代解释更深入(从这两种解释深度的角度而言)还为时过早,但相关的现有证据表明它们很可能是(第4节)。结论总结了本文对现有文献的贡献。
2. Reward-Prediction Error Meets Dopamine
多巴胺是大脑中的神经递质。1它对认知和行为的许多方面都有重要影响,包括运动控制、学习、注意力、动机、决策和情绪调节。多巴胺与帕金森氏病,精神分裂症,注意力缺陷多动障碍(ADHD)和成瘾等疾病有关。这些就是为什么要进行大量工作以了解利用多巴胺作为神经递质的神经元所携带的信息的类型以及它们在认知和行为中的功能作用的一些原因。
使用多巴胺作为神经传递信息的神经元称为多巴胺或多巴胺能神经元。这样的神经元在系统发育上是古老的,并且存在于所有哺乳动物、鸟类、爬行动物和昆虫中。多巴胺能神经元位于二脑(又称间脑),中脑和嗅球(Björklund & Dunnett, 2007)的几个大脑网络中。多巴胺能神经元总数的大约90%位于中脑的腹侧部分,它包括具有不同途径的不同多巴胺能网络。这些途径之一是黑质纹状体途径。它把中脑结构黑质与纹状体联系在一起,纹状体是前脑基底神经节的最大核,有两个成分:壳核和尾状核。另一个途径是中脑边缘的,其将中脑的腹侧被盖区与基底神经节外部的前脑结构连接在一起,例如杏仁核和前额内侧皮层。
多巴胺神经元表现出两种主要的发放活动模式,可调节细胞外多巴胺的水平:tonic和阶段性活动(Grace, 1991)。tonic活动由〜1-6 Hz的规则发放模式组成,可在传入脑结构中维持缓慢变化的细胞外多巴胺的基本水平。阶段性活动包括多巴胺神经元发放率的突然变化,该变化可以增加到〜20 Hz,从而引起细胞外多巴胺浓度的瞬时增加。
神经元可以通过释放化学物质进行交流归功于德国出生的药师Otto Loewi (诺贝尔生理学和医学奖得主以及共同获奖者Sir Henry Dale)在1921年的发现(参见Loewi, 1936)。多巴胺在大脑中作为神经递质的发现可追溯到1957年,这归功于瑞典药理学家Arvid Carlsson (2000年诺贝尔生理学和医学奖以及共同获奖者Eric Kandel和Paul Greengard)(参见Carlsson, 2003)。Carlsson在1950年代和1960年代的工作为以下发现铺平了道路:基底神经节含有最高的多巴胺浓度,多巴胺的消耗可能会损害运动功能,帕金森氏病患者的尾状核和壳状核中的多巴胺浓度明显降低(参见Carlsson, 1959; 1966)。
至少从1950年代开始,就一直在寻找基于奖励的学习和动机的机制。James Olds和Peter Milner着手研究某些大脑区域的电刺激如何增强行为。他们将电极植入大鼠大脑的不同区域,并允许它们在Skinner盒子周围移动。每当它们按下盒子中的杠杆时,老鼠都会受到刺激。当这种刺激作用于腹侧被盖区和基底前脑时,大鼠表现出正增强的迹象,因为它们会反复按动操纵杆,每小时最多2000次。这些结果向Olds和Milner暗示,"他们可能已经在大脑中建立了一个系统,其特殊功能会对行为产生有益的影响"(Olds & Milner, 1954, p.426)。
"奖励"的概念应在Thorndike (1911)和Skinner (1938)的学习理论中加以理解。正如Olds和Milner所说:"在增强能力方面,刺激增加、减少或保持先前反应的频率不变,因此被称为奖励、惩罚或中性刺激"(Olds & Milner, 1954, p.419页)。因此,如果动物学会执行可靠地受到该刺激或刺激作用的行为,则对某些大脑刺激或某些环境刺激作用是"奖励"。
后来的实验证实,特定大脑区域的电自刺激对动机的影响与其他自然奖励相同,例如饥饿或口渴动物的食物或水(Trowill, Panksepp, & Gandelman, 1969; Crow 1972)。某些药理学研究证实了某些神经递质可能是基于奖励的学习和动机机制的相关因果关系的想法(Stein, 1968; 1969)。在随后的药理学研究(Fibiger, 1978)和解剖学研究(Lindvall & Björklund, 1974)的基础上,关于多巴胺能神经元参与这种机制的假设开始被提出。用Roy Wise (1978)的话说:"[从现有证据中]可以得出结论,多巴胺在奖励过程中起着特殊作用……似乎确实如此,多巴胺能系统在神经回路中形成了一个关键环节,赋予了它颅内刺激……和静脉内刺激注射的有益效果"(Wise, 1978, pp. 237-238)。
Wise (1982)提出了关于多巴胺在认知和行为中功能的第一个假设,旨在解释解剖学、药理学、脑自我刺激、病理学和病变研究中的一组相关数据。 它被称为无快感假说,是根据药理学证据提出的,适度剂量的抗精神病药(即多巴胺拮抗剂)2可以破坏强化任务期间的行为现象,而不会严重损害运动功能(参见Costall&Naylor, 1978)。对无快感假说被提出,以代替简单运动假设,后者声称多巴胺系统是运动控制的机制,而多巴胺能障碍仅引起运动缺陷(参见,例如, Koob, 1982)。
无快感假说提到:"某些未知的多巴胺能底物(可能是大脑中几种多巴胺能投射中的一种或多种)的正常功能及其传出的联系对于强化和激励动机的现象以及对人的主观体验都是必要的"(Wise, 1982, p.53)。3此假设是基于这样的主张,即所指定的多巴胺能神经元的某些网络是强化机制的因果相关组成部分,某些多巴胺能神经元的网络是感觉愉悦所必需的,而愉悦是强化的必要关联。
然而,多巴胺与愉悦之间的解释性联系是肤浅的。Berridge, Vienier和Robinson (1989)测试了中皮多巴胺系统选择性病变对大鼠不同口味反应的影响,发现关于快感缺乏和运动假说的预测均未得到证实。已经发现,愉悦的主观体验并不是增强的必要关联,而愉悦也不是多巴胺能神经元所必需的(见Wise, 2004, 有关证据的后续评估)。
Kent Berridge及其同事根据味觉反应性数据和药物成瘾的心理药理作用,并基于较早的激励动机理论(例如Bindra, 1974; Toates, 1986),提出了多巴胺的激励显著性假设(ISH)。根据该假设,由中脑结构(例如腹侧被盖区)释放的多巴胺为物体或行为赋予"激励价值"。激励显著性是一种"类似于磁铁"的激励性属性,它使外部刺激或内部表征更加突出,并且更可能被需要、接近或消耗。奖励显著性归因于预测某种奖励的刺激,使得刺激和奖励都"需要"(Robinson&Berridge, 1993; Berridge&Robinson, 1998)。由于ISH被认为是RPEH的最重要的当代替代方法(例如Berridge, 2007),因此以下各节将其更紧密地考虑,并将其沿两个解释深度的维度与RPEH进行比较。现在,让我们转到RPEH的下一步。
在1980年代,关于多巴胺在运动功能中的作用的研究仍然是研究的活跃话题(例如, Beninger, 1983; Stricker&Zigmond, 1986; White, 1986; 参见Dunnett&Robbins, 1992, 以备后述)。这种兴趣被早期发现证明是合理的,帕金森病患者的纹状体中多巴胺能神经元急剧减少(Ehringer&Hornykiewicz, 1960; Hornykiewicz, 1966),并伴有震颤、运动减退和僵硬等症状。Wolfram Schultz是研究多巴胺耗竭、运动功能与帕金森氏病之间关系的神经科学家之一(Schultz, 1983)。作为评估这种关系的一种方法,他使用了清醒猴中多巴胺能神经元的单细胞记录,而猴子正在执行听觉或视觉刺激做出的食物奖励运动(Schultz, Ruffieux, & Aebischer, 1983; Schultz, 1986)。中脑多巴胺神经元的阶段性活动被发现与视觉或听觉刺激的表现有关,随后将得到食物奖励。在获得奖励时,某些此类神经元也显示出活动的阶段性变化。达成运动的执行与多巴胺能活动的相关性较小,表明中脑多巴胺能神经元的活动不编码特定的运动参数。Schultz及其同事假设,这种活动执行的一些更一般的功能与刺激导致奖励而引起的行为反应水平的变化有关。
在随后的十年中,Schultz及其同事对清醒猴腹侧被盖区和黑质的中脑多巴胺能神经元进行了类似的单细胞记录实验,同时他们反复执行了工具性或巴甫洛夫式条件任务4(Schultz&Romo, 1988; Romo&Schultz, 1990; Ljungberg, Apicella&Schultz, 1992; Schultz, Apicella&Ljungberg, 1993; Schultz, Mirenowicz&Schultz, 1994)。在一个典型的实验中,一只口渴的猴子坐在两个杠杆之前。在显示视觉刺激(例如闪烁)之后,猴子必须按下左但不按下右操纵杆才能获得果汁奖励。在该实验中观察到多巴胺能活性的特异模式。在学习的早期阶段(猴子行为异常),多巴胺神经元仅在获得奖励时才显示出阶段性活动。经过多次试验,由于猴子已经学会了正确的刺激-动作-奖励关联,因此神经元对奖励的反应消失了。现在,无论何时显示视觉刺激,猴子都开始表现出预期的舔行为,并且其多巴胺能神经元显示出与视觉刺激呈现相关的阶段性活动。如果忽略了预期的果汁奖励,则在提供奖励的时间,神经元的反应会下降,低于基础发放率,这表明多巴胺能活动对奖励的发生和时间均敏感。
在这些类型的任务中观察到的多巴胺能活动的模式用通用的"学习和认知行为的注意和动机过程"进行了解释(Schultz et al., 1993, p.900)。Schultz及其同事没有提及Wise等人先前关于多巴胺参与奖励、动机和学习机制的研究,也没有提及关于从心理学和人工智能中进行强化学习的文献。因此,在1990年代初,关于多巴胺能活动编码的信息类型及其在基于奖励的学习和动机机制中的因果作用的问题很突出。
同时,到1980年代后期,RL已被确立为机器学习和人工智能中最流行的计算框架之一。RL提供了一系列算法,以解决在不熟悉的环境中采取不同的动作来面对面对奖励和惩罚时该怎么做的问题(Sutton&Barto, 1998)。一种广泛使用的RL算法是TD学习算法,其发展与Rich Sutton (1988)的关系最为密切。TD算法的发展受到数学心理学中较早的动物学习理论的影响,特别是受到Bush和Mosteller (1951)的开创性论文的影响,该论文正式阐述了奖励如何在工具性条件任务过程中增加给定行为反应的概率。Bush和Mosteller的工作由Rescorla和Wagner (1972)扩展,他们的模型为TD学习算法奠定了基础。
Rescorla-Wagner模型是工具性和巴普洛夫式条件的正式模型,描述了信号(例如条件刺激)和后续刺激(例如非条件刺激)之间的关联强度的潜在变化。基本见解类似于告知Bush-Mosteller模型的观点:学习取决于预测中的误差。正如Rescorla和Wagner所说:"生物体只有在事件违反它们的期望时才能学习。人们对刺激刺激后的事件抱有一定的期望;然后,只有在随后发生的事件与复合期望不一致时,才修改由复合体及其组成部分刺激引发的期望"(Rescorla&Wagner, 1972, p.75)。因此,学习是由预测误差驱动的,学习的基本单位是条件试验。条件刺激和非条件刺激之间的关联强度的变化是预测值(即动物对无条件刺激的期望,考虑到试验中存在的所有条件刺激)与条件试验中的实际发生情况(即非条件刺激)之间差异的函数。
TD学习通过考虑学习试验中不同刺激的时机来扩展Rescorla-Wagner模型,这实际上影响了关联强度的变化。TD学习是由一定数量的时间顺序估计(或预测)之间的差异驱动的,例如,预期在未来获得的奖励总额(即价值)。在任何给定的时间步骤,此数量的估计值都会更新,以使其更接近下一个时间步骤的估计值。TD学习算法可以预测将要发生的情况。然后将这些预测与实际发生的情况进行比较。如果预测是错误的,则将预测的结果与实际发生的情况之差用于学习。TD学习的核心是两个公式。第一个是更新规则:
其中V(S)表示所选选项S的价值,η是学习率参数,而δ(toutcome)是在两个连续时间步骤(tstimulus和toutcome = tstimulus + 1)。第二个公式将时间 t 的奖励预测误差定义为:
其中V(t)是某个选项在时间 t 的预测值,而r(t)是在时间 t 所获得的奖励结果。toutcome的奖励预测误差用于更新V(S),即所选选项的价值。从1980年代开始,TD学习以及更广泛的RL学习建立神经网络模型并帮助解释脑科学中的某些结果的潜力就显而易见了。正如Sutton和Barto (1998, p.22)所回顾的那样,"当时开发的一些神经科学模型在TD学习方面得到了很好的解释(Hawkins and Kandel, 1984; Byrne, Gingrich, and Baxter, 1990; Gelperin, Hopfield, and Tank, 1985; Tesauro, 1986)",但是,多巴胺与TD学习之间的联系仍然必须明确。
在1990年代初期,Read Montague和Peter Dayan在Terry Sejnowski位于圣地亚哥Salk研究所的计算神经生物学实验室工作。Dayan在爱丁堡大学的人工智能和计算机科学博士学位专注于RL,而Montague作为研究生和生物物理学与神经科学博士后的一些工作则专注于神经网络的自组织和学习模型。他们都通过询问他们执行什么计算功能来解决有关大脑和神经回路的问题(参见, Dayan, 1994)。1991年的一个春日,TD学习和多巴胺联系起来了(Montague, 2007, pp.108-109)。Dayan碰到了Schultz及其同事的一篇文章,其中介绍了在工具性学习任务中多巴胺神经元活动记录的数据。通过查看文章中显示猴子多巴胺神经元发放模式的图,Dayan和Montague认识了TD学习的鲜明特点。TD学习算法中使用的奖励预测误差信号与Schultz及其同事的记录之间的相似性令人震惊。多巴胺神经元的活动似乎编码奖励预测误差信号。
Montague, Dayan和Sejnowski开始撰写一篇论文,该论文在RL的计算框架内解释了Schultz及其同事的研究结果。他们的项目是提供一个统一的TD学习模型,该模型可以解释Schultz及其同事的实验中观察到的神经生理和行为规律。在简短的摘要中,Quartz, Dayan, Montague和Sejnowski (1992)提出了这样的见解,即中脑多巴胺能神经元的持续活动可以编码预期和实际奖励结果的比较,从而推动学习和决策。该见解由Montague, Dayan, Nowlan, Pouget和Sejnowski (1993)提出,并在NIPS上进行了介绍,该会议是一年一度的活动,汇集了对生物学和人工学习系统感兴趣的研究人员。在该论文中,对TD学习与Schultz及其同事的结果模式之间的联系作了陈述:一些"扩散调节系统……似乎向皮质和其他结构传递奖励和/或显著信号,从而影响成年人的学习。最近的数据(Ljunberg et al., 1992)表明,后者的影响在质量上与Sutton和Barto (1981, 1987)的经典条件理论所预测的类似(Montague et al., 1993, p.970)。但是,理论神经科学,尤其是计算神经科学,当时还处于起步阶段,并且尚未被公认是神经科学不可或缺的领域(参见Abbott, 2008)。Montague, Dayan和Sejnowski最初打算于1991年发表的论文被神经科学的每本主要期刊都拒绝了,部分原因是该领域由实验学家主导(Montague, 2007, p.285)。
Dayan和Montague从另一个角度处理了这个问题。众所周知,蜜蜂的觅食行为遵循TD学习模式。单细胞记录和细胞内电流注射的证据表明,蜜蜂使用神经递质章鱼胺来实现TD学习(Hammer, 1993)。受这些发现的启发,Dayan和Montague开发了一种蜜蜂觅食行为的模型(Montague, Dayan, Person, & Sejnowski, 1995)。首先,他们确定了一种神经结构,这种结构可能对脊椎动物和无脊椎动物都很普遍,并且可以实现TD学习。其次,他们认为这种神经计算架构具有生物学合理性,并指出蜜蜂的弥散性章鱼胺能系统适合进行TD学习。最后,他们表明,在他们指定的神经计算结构上运行的TD学习算法的一种版本可能会产生一些蜜蜂在觅食期间显示的学习和决策现象。Montague及其同事强调:"有充分的证据表明灵长类动物中脑多巴胺能系统具有类似的预测反应。因此,灵长类动物中的多巴胺传递可被目标神经元用来指导动作的选择和学习,这提示了重要功能原理的保留,尽管其详细实现方式有所不同"(Montague et al., 1995, p.728)。5
到1990年代中期,其他研究小组认识到,在Schultz及其同事使用的这类任务中,多巴胺能神经元的活动可以准确地描述为实现了某种奖励预测误差算法。Friston, Tononi, Reeke, Sporns和Edelman (1994)在进化和适应性行为的背景下考虑了大脑中与价值相关的可塑性。他们假设,不断上升的神经调节系统,以及根据Ljunberg等人(1992)的发现,特别是多巴胺能系统,是某些基于价值机制的核心组成部分,其过程对奖励刺激具有选择性。Houk, Adams和Barto (1995)对基底神经节的计算结构提出了一个假设,在该结构中,多巴胺能神经元将通过计算奖励预测误差来控制学习并偏向选择动作。
神经科学界开始更加关注TD学习与多巴胺之间的关系。五年后,Montague, Dayan和Sejnowski的原始论文发表在《The Journal of Neuroscience》上(Montague, Dayan, & Sejnowski, 1996)。在本文中,在与Wise (1982)指出多巴胺神经元参与许多认知和行为功能后,他们研究了Schultz及其同事的研究结果。这些结果表明,多巴胺能信号中编码的任何内容都应能够解释四组数据。"(1) 这些神经元的活动不仅仅按照奖励交付的时间和大小进行编码。(2) 感觉刺激(光,音)和奖励性刺激(果汁)的表示都可以驱动多巴胺神经元的输出。(3) 从感觉和奖励表征到多巴胺神经元的驱动是可改变的。(4) 这些神经元中的一些可以获取奖励交付的期望时间"(Montague et al., 1996, p.1938)。
Montague, Dayan和Sejnowski (1996)强调了Schultz及其同事的研究结果的一个未被重视的方面:多巴胺能神经元不仅对期望与实际经历的奖励幅度敏感,而且对奖励预测变量发生以及实际奖励的发生之间的精确时间关系也很敏感。这方面对于确定TD计算与多巴胺能活动之间的联系至关重要。因为它表明,多巴胺神经元应该能够表示奖励预测因子之间的关系,对未来奖励的可能时间和幅度的预测以及实际经历的奖励时间和幅度之间的关系。Montague及其同事(1996)的核心在于制定强化学习的计算框架,并将其运用到与多巴胺有关的神经生理学和行为学证据上,从而将神经功能与认知功能联系起来。通过建模和计算机仿真,他们表明可以解决某种学习任务的算法类型可以准确而紧凑地描述中脑内许多多巴胺能神经元的行为:"[腹侧被盖区]到皮质和皮质下目标结构,部分传递有关期望奖励与实际奖励之间的预测误差的信息"(Ibid., p.1944, 着重于原始内容)。一年后的1997年,Montague和Dayan发表了另一篇与Schultz在《Science》上合作的类似论文,至今仍是RPEH的参考。
1 神经递质是通过突触将信息从一个神经元传递到另一个神经元的化学物质。突触是连接神经元的结构,神经元允许一个神经细胞将电/化学信号传递给一个或多个细胞。突触由突触前神经末梢(可以包含神经递质)和突触后神经末梢(可以包含神经递质的受体位点)组成。在神经递质通过突触前末端释放后,它们在突触间隙扩散,然后与突触后末端的受体结合,从而改变突触后神经元的状态。
2 通过与多巴胺受体结合和封闭来阻断多巴胺作用的药物称为多巴胺拮抗剂。
3 "激励动机"与"次要强化"(或"条件强化")同义,是指与主要强化剂(如水或食物)关联后已获得其强化功能的刺激或情况。当刺激获得激励特性时,它不仅获得了引发和维持工具性行为的能力,而且还获得了吸引方法和引发消费行为的能力(参见, Bindra, 1974)。
4 在工具性(或操作性)条件调节中,动物学会对特定刺激做出反应,从而获得奖励并避免惩罚。在巴甫洛夫式(或经典)条件下,不需要任何反应就可以获得奖励和避免惩罚,因为奖励和惩罚是在特定刺激之后进行的,与动物的行为无关。
5 这个结论可能会引起混乱,因为对于如何理解"功能性原则"在整个进化过程中都是"保守的"这一建议并不明显。当两个不相关的生物具有某些特征时,通常将其视为该特征是同源的(即,源自共同祖先)。但这永远不是同源性的充分证据。要建立同源性,必须对特征进行适当的系统发育重建(至少涉及两个以上的物种)。如果有足够的证据,Montague和同事的建议可以用类比而非同源来更好地理解。包括蜜蜂,猕猴和其他灵长类在内的两个(可能更多)物种可能已经独立演化出具有相似功能特性的独特弥散性神经递质系统。相似性并非归因于共同祖先。相反,相似性是由于趋同进化造成的:两个物种都面临相似的环境挑战和选择性压力,这表明TD学习是一种适应性策略,可以解决在物种中反复出现的特定类别的学习和决策问题。我感谢一位匿名审稿人提请我注意这一点。
3. Reward-Prediction Error and Incentive Salience: What Do They Explain?
根据Montague et al. (1996)和Schultz et al. (1997),现在可以更精确地表征RPEH。该假设指出,腹侧被盖区和黑质中的多巴胺能神经元的阶段性发放"部分"编码了奖励预测误差。Montague及其同事并未声称所有多巴胺能神经元中的所有活动都仅编码(或在所有情况下)奖励预测误差。他们的假设是"中脑多巴胺能输出对学习和行为控制的原因和影响之间的特殊关系"(Montague, Dayan, Sejnowski, 1996, p.1944)。在某些类型的学习和决策任务过程中,这种关系可能会使某些多巴胺能神经元具有某种类型的活动。声称不是多巴胺能神经元仅编码奖励预测误差。这种说法既不是预测误差只能通过多巴胺能活动来计算,也不是所有的学习和动作选择都是通过奖励预测误差或依赖于多巴胺能活动来进行的。
RPEH将大脑特定结构中活动的动态模式与精确的计算功能相关联。由于奖励预测误差是经历的奖励与期望的奖励之差,因此多巴胺神经元是否对特定奖励做出响应取决于该奖励是否是完全期望的,期望的幅度以及期望的交付时间。因此,该假设将多巴胺能反应与两种类型的变量相关联:奖励和关于(在某种情况下可能获得的)奖励的交付量和交付时间的信念(或期望)。因此,RPEH可以理解为将多巴胺能反应与奖品(或彩票)上的概率分布相关联,从中可以在给定时间获得一定量级的奖品(Caplin&Dean, 2008; Caplin, Dean, Glimcher, & Rutledge, 2010)。
该假设具有以下双重作用:准确地描述基于奖励的学习和决策过程中大脑中的多巴胺能相活动的动态分布,并通过引用多巴胺能相活动的代表性作用来解释这种分布。因此,RPEH解决了两个不同的问题。首先,如何准确而紧凑地描述多巴胺能神经元发放模式的一些规律性?其次,这些发放模式执行的计算功能是什么? 通过回答第二个问题,RPEH为基于奖励的学习和决策的神经计算解释提供了基础。
神经计算解释通过识别和描述相关的机械成分(例如多巴胺能神经元),它们的组织活动(例如多巴胺能神经元的阶段性发放),它们执行的计算程序(例如奖励预测误差的计算)和执行这些计算的系统的信息结构(例如actor-critic结构,该结构实现TD学习并映射到可分离的神经成分上,例如,参见Joel, Niv, & Ruppin, 2002; Balleine, Daw, & O'Doherty, 2009)来解释认知现象和行为(例如,阻滞和二阶调节6)。神经计算可以理解为根据仅对神经发放某些属性敏感的算法规则,通过感觉输入和其他神经群体的活动模式对神经发放的转换(Churchland&Sejnowski, 1992; Colombo, 2013; Piccinini&Bahar, 2012)。
如果RPEH是正确的,则由中脑多巴胺能神经元及其阶段性活动组成的神经计算机制将执行学习面对预期的奖励和惩罚时应做的任务,并据此做出决策。当前,该机制的几个特征尚待确定。因此,基于RPEH的关于奖励学习和决策的解释目前尚不明确(Dayan&Niv, 2008; O'Doherty, 2012)。但是,一些认知和大脑科学家会同意,要指定的某些基于RPEH的神经计算机制可以用比现有替代品更美丽且更深刻的方式充分解释许多学习和决策现象。
RPEH当前最突出的可用替代方法可能是激励显著性假设(ISH)。该假设指出,在较大的中皮质系统中激发多巴胺能神经元仅介导激励显著性归因。用Berridge的话说:"多巴胺通过介导激励显著性对奖励相关刺激的动态归因,使它们及其相关奖励变得动机上"需要",从而仅介导了"需要"成分(Berridge, 2007, p.408)。
ISH将多巴胺能的激活与一种心理结构相关联:激励显著性(也称为"需要")。因此,它回答了多巴胺在奖励相关行为中的因果作用的问题。通过回答这个问题,ISH为基于奖励的动机和决策的神经心理学解释奠定了基础。ISH致力于声称多巴胺能发放编码激励显著性,为其赋予刺激性或内在表现力,使其具有吸引人和吸引注意力的特性。激励显著性归因不必是有意识的,也不必涉及愉悦感(又称"喜欢")。多巴胺能活动对于激发针对某个目标的动作是必不可少的,因为它是动机机制(或"需要"的机制)的核心组成部分。多巴胺能神经元不是基于奖励的学习机制的相关组成部分:"说多巴胺充当导致新学习的预测误差,可能是对多巴胺在学习中的作用造成因果性错误:它可能……被称为'多巴胺预测误差'"(Berridge, 2007, p.399)。因此,ISH被认为是RPEH的替代品,因为它否认RPEH的两个主要主张:第一,它否认多巴胺编码奖励预测误差。其次,它否认多巴胺是基于奖励的学习机制的核心组成部分。
与RPEH类似,基于ISH的解释也很不明确:它包括多巴胺作为激励显著性归因和动机机制的核心组成部分,但留下了几个解释性的空白(例如, 参见Berridge, 2007, 注释8)。特别是,该假设至少以三种方式受到约束,这使其不如RPEH精确。首先,它不能准确识别多巴胺能成分的相关解剖位置。第二,关于阶段性和tonic多巴胺能信号可能发挥的不同作用,这是毫无疑问的。最后,它还没有通过可以产生定量预测的单个计算模型来形式化。
在制定它们的过程中,RPEH和ISH都只关心多巴胺能活性编码的信息类型。尽管如此,对于多巴胺能神经元的功能提出了不同的主张,这些假设促使人们以多巴胺为中心对与学习,动机和决策有关的现象做出了不同的解释。尽管这些以多巴胺为中心的解释目前仍是暂定性和不完整的,所以现在争论一个解释实际上比另一个更深入可能为时过早,但值得说明的是,在哪种情况下基于RPEH的解释可以被认为比其他基于ISH的解释更深入,同时指出了相关的可用证据。
6 在经典调节中,阻塞是一种现象,如果在调节过程中将新刺激与先前调节的刺激相结合,则几乎不会发生调节。二阶调节是一种现象,其中当中性刺激与先前已进行调节的刺激配对时,中性刺激会获得条件响应。
4. Explanatory Depth, Reward-Prediction Error and Incentive Salience
最近在科学哲学中提出了许多解释深度的解释(例如Woodward&Hitchcock, 2003; Strevens, 2009; Weslake, 2010)。尽管有很大的不同,但这些说明都同意,解释深度是概括性的特征,可以概括性地表达解释项与被解释项之间的关系。
根据Woodward和Hitchcock (2003)的说法,为了真正地说明问题,概括应显示出反事实相关性的模式,将解释项与被解释项联系起来。解释性概括不必是法律或无例外的规律性。它们应该使我们能够回答各种不同的问题,这些问题表明了解释现象所依赖的东西。这些问题涉及在对解释项进行更改或干预时,被解释项会发生变化的方式,这种干预的主要特征是它们不会对被解释项产生因果关系,除非它们对被解释项有影响(Woodward, 2003)。解释性概括的深度是反事实问题范围的函数,该反事实问题涉及它可以回答的目标系统中的可能变化。给定两个具有竞争性的解释性概括G1和G2,如果G1在比G2更大的可能干预或变化范围内不变(或继续保持不变),则G1比G2更深。7将其称为"解释深度的不变性解释"。
根据另一种观点(参见Hempel, 1959),解释性概括应该使我们能够通过解释几种类型的可能系统所显示的各种现象来追踪自然界普遍存在的统一性。解释性概括的深度是可应用的可能系统范围的函数。8将假设应用于目标系统的假设是,该假设准确地描述了系统的相关结构和动力学,其中什么是相关性和非相关性共同决定于所研究的现实世界系统的因果结构,科学家对该系统的不同认知兴趣和目的以及科学家的听众。给定两个具有竞争性的解释性概括G1和G2,如果G1可以比G2应用于更广泛的可能系统或现象,则G1比G2更深。因此,更深入的解释概括具有更广泛的范围。称之为:"解释深度的范围说明"。9
7 Woodward和Hitchcock (2003, sec.3)区分了多种概括可能比另一种不变的方法。就本文的目的而言,足以指出它们共享的是,它们阐明了不同的方式,在这些方式中,解释性概括使我们能够回答各种不同的问题。
8 Kitcher (1989)提出了类似的想法。但是,他的观点是深度是可以应用的实际情况范围的函数。有关此观点引起的一些问题的讨论,请参见Woodward和Hitchcock (2003, sec.4)。
9 值得一提的是,关于这两种深度观点如何相互关联的结论尚不明确(例如,关于这一问题的讨论,请参见Strevens, 2004)。
4.1. Depth as scope, reward-prediction error and incentive salience
如果某些基于RPEH的解释性概括可以比某些基于ISH的替代性解释性概括应用于更广泛的可能现象或系统,则根据解释性深度的范围考虑,基于RPEH的概括性更深。有哪些可用证据与评估这一说法有关?
基于ISH的解释最直接地应用于大鼠的行为以及啮齿动物和人类的成瘾现象。在1980年代后期至1990年代初期,激励显著性被提供以解释在味觉-反应任务期间对大鼠多巴胺的药理操作的"喜欢"(即愉悦体验)和"需要"(即激励显著性)的不同影响(Berrideg et al., 1989)。从那时起,激励显著性就一直被用来解释电生理和药理实验的结果,这些实验操纵着执行巴甫洛夫式或工具性调节任务的大鼠的中皮层皮质区的多巴胺能活动(参见Berridge&Robinson, 1998; Peciña, Cagniard, Berridge, Aldridge, & Zhuang, 2003; Tindell, Berridge, Zhang, Peciña, & Aldridge, 2005; Wyvell, & Berridge, 2000)。
大多数应用于人类的ISH解释都涉及成瘾和帕金森氏病中观察到的相对较少的现象(Robinson&Berridge, 2008; O'Sullivan et al., 2011)。从激励显著性的角度来看,对某些物质或行为的成瘾是由激励显著性的过度归因引起的。强迫行为取决于中脑皮层多巴胺能投射中的超敏性或"敏化"(即,由于重复给药引起的药物作用增加),从而导致对药物奖励及其提示的激励显著性过分归因。致敏的多巴胺能系统将导致对药物或其他刺激的病理性诱因。
与基于ISH的解释相比,基于RPEH的解释似乎具有更广泛的范围。对于TD学习,它已被应用于许多生物和人工系统(参见例如Sutton&Barto, 1998, ch.11)。TD学习在自然界似乎很普遍。例如,回想一下Montague等人(1995)认为蜜蜂脑中特定神经元释放的章鱼胺可能预示着奖励预测误差,他们还建议指导物种和学习选择的相同类型的"功能性原理"很可能被保存下来。
但是,如果蜜蜂、灵长类动物和其他物种共享类似的TD学习机制,或者如果许多人工系统实现TD学习,则这不足以证明基于RPEH的解释的更广泛的解释范围。相反,这是对RL(尤其是TD学习)更广泛的解释范围的证据。RPEH和ISH与多巴胺有关。因此,更广泛范围的相关证据应涉及多巴胺能神经元及其活性。
基于RPEH的学习和决策解释至少适用于大鼠、猴子和人类。RPEH是通过将在工具性和巴甫洛夫式调节任务期间的猴子电生理数据与TD奖励预测误差信号的动态进行比较来制定的(Montague et al., 1996; Schultz et al., 1997)。从那时起,对猴子的单细胞实验加强了在中脑阶段多巴胺能放电与TD奖励预测误差之间定量精确对应的理由(Bayer&Glimcher, 2005; Bayer, Lau&Glimcher, 2007)。从大鼠的腹侧被盖区进行动态气味识别任务的记录表明,RPEH也普遍适用于该物种(Roesch, Calu, & Schoenbaum, 2007)。最后,越来越多的使用功能性磁成像(fMRI)的人类从事决策和学习任务的研究表明,多巴胺能靶标区域(如纹状体和眶额皮质)的活动与TD模型的奖励预测误差相关(Berns, McClure, Pagnoni, & Montague, 2001; Knutson, Adams, Fong, & Hommer, 2001; McClure, Berns, & Montague, 2003a; O'Doherty, Dayan, Friston, Critchley, & Dolan, 2003)。这些发现实际上与RPEH是一致的,因为fMRI测量似乎反映了该区域正在处理的传入信息,纹状体和皮质区域(例如眶额皮质)是来自腹侧被盖区的多巴胺能输入的主要接受者(参见McClure & D'Ardenne, 2009; Niv & Schoenbaum, 2008)。10
一些基于RPEH的解释可用于解释许多与学习和决策有关的现象。在一些基于RPEH的解释的认知现象和行为中,有:习惯性行为与目标行为(Daw, Niv, & Dayan, 2005; Tricomi, Balleine, & O'Doherty, 2009),工作记忆(O'Reilly & Frank, 2006),性能监控(Holroyd & Coles, 2002),病态赌博(Ross, 2010)和包括抑郁症在内的多种精神疾病(例如,Huys, Vogelstein, & Dayan, 2008; 对于有关计算精神病学的综述,请参见Montague, Dolan, Friston, & Dayan, 2012)。
在此最相关的是,基于RPEH的激励显著性解释也被提出,这表明,与多巴胺有关的不同假设在经过适当形式化后,其假设可能比可能假想的范围更大(McClure, Daw, & Montague, 2003b)。根据该建议,激励显著性对应于预期的未来奖励,而RPEH所建议的多巴胺起着学习预测未来奖励和使动作选择偏向刺激性预测奖励的双重作用。McClure及其同事证明了ISH所解释的一些现象,例如通缉对象与喜欢对象之间的分离,直接源于根据RPEH对多巴胺拥有的偏向动作选择的作用。多巴胺的释放会通过增加选择某些导致奖励的动作概率,来将激励显著性分配给刺激或动作。因此,多巴胺受体拮抗作用将降低选择任何动作的概率,因为每个可用选项的估计值也会降低。
如果该建议正确地体现了激励显著性的概念(已被争论(Zhang, Berridge, Tindell, Smith, &, Aldridge, 2009),那么就有理由说服某些基于RPEH的解释确实比基于ISH的解释具有更广泛的范围。我们将可以对它们进行直接比较,并且基于ISH的解释将由基于RPEH的更一般的解释来进行。因此,对于适用基于RPEH的解释的任何可能的目标系统,都会有适用于同一系统的基于ISH的解释,反之亦然。
10 目前尚无法使用fMRI数据评估MRI信号的多巴胺能状态。关于fMRI信号精确来源的可靠信息很难为皮质收集,更不用说基底神经节,尤其是因为神经调节剂本身可以具有血管活性(参见Kishida et al., 2011; Zaghloul et al., 2009有关亚秒级多巴胺在人体内的释放的测量方法论的信息)。
4.2. Depth as invariance, reward-prediction error and incentive salience
如果某些基于RPEH的概括在比其他基于ISH的概括更广泛的可能干预或变更下是不变的(或继续存在),则根据解释深度的不变性说明,基于RPEH的概括会更深。这些干预措施(回想起来),除非通过影响以多巴胺为中心的机制(其行为由解释性概括描述),否则不应因果影响该被解释项现象。
为了评估基于RPEH和ISH的替代解释的相对深度,相关干预措施应针对特定生物学谱系中的特定机制,例如灵长类动物中以多巴胺为中心的机制。仅对跨生物学谱系发现的类似机制进行的干预将无法提供与深度不变性相关的证据。
还应注意,RPEH的精确度高于ISH的精确度。与ISH不同,RPEH对多巴胺能的相位活动以及腹侧被盖区和黑质中的多巴胺能神经元具有特定的主张。可以认为,这意味着基于RPEH的解释所涉及的与评估深度相关的多巴胺能活动的干预范围要比基于ISH的解释所涉及的范围要窄:而对于基于ISH的解释,相关的干预措施可能既涉及阶段性干预,也涉及针对性干预。除了基于腹侧被盖区和黑质以外的中皮层皮质区中的多巴胺能神经元的阶段性且强直性(tonic)活动,对于基于RPEH的解释,相关干预措施将不涉及任何中皮层皮质回路中的强直性活动或多巴胺能神经元。但是,这种想法是错误的。对于ISH而言,对于与评估ISH解释的不变性相关的具体干预措施保持沉默。因此,与评估基于ISH的解释的深度相关的干预范围并不严格包含与评估基于RPEH的解释的深度相关的干预范围。
最后,与RPEH不同,ISH缺乏可以在实验设计中实施并产生精确的定量预测的无争议的形式。因此,基于RPEH的解释可能比基于ISH的替代解释更深入,即使它们在例如 腹侧被盖区有阶段性多巴胺能活动。对于基于RPEH的解释,将给出有关被解释项现象将如何变化的更准确答案。
一组可用的相关证据涉及药物对多巴胺的操纵。如果基于RPEH或ISH的一些以多巴胺为中心的解释性概括正确地给出了有关多巴胺能信号传导被增强或减弱的某些目标行为将如何变化的信息,则该概括将显示一定程度的深度不变性。在通过两个示例说明此想法之前,需要进行一些警告。一个警告是,像多巴胺这样的神经调节剂在不同的时空尺度上对目标神经回路和认知有多种,复杂且知之甚少的作用(Dayan, 2012)。缺乏对干预多巴胺能信号的药物对神经生理学和行为的精确影响的知识。此外,如上所述,基于RPEH和ISH的解释目前尚在尝试和空洞中,部分原因是目前尚不十分清楚干预对多巴胺能系统的影响。 由于暂定性和空洞性,仍然存在争议,这种解释在多大程度上始终确实在根本上是不同的(参见例如McClure et al., 2003b; Niv&Montague, 2009, pp.341-342)。
为了探究多巴胺能信号传导与基于奖励的学习与决策之间的解释性联系,Pessiglione, Seymour, Flandin, Dolan和Frith (2006)使用了涉及金钱收益和损失的工具性学习任务,并结合了对健康人体内的多巴胺能信号传导以及计算和功能性成像技术。氟哌啶醇(多巴胺受体的拮抗剂)或L-DOPA(多巴胺的代谢前体)均被施用于不同组的参与者。研究了这些操作对大脑活动和选择行为的影响。研究发现,L-DOPA增强了纹状体(多巴胺能信号的主要靶标)中的活性,而氟哌啶醇则降低了该活性,这表明,通过使用L-DOPA(或氟哌啶醇)处理,纹状体的奖励预测误差信号的幅度得以增强(或减弱)。选择行为被发现由这些操纵系统地调节。L-DOPA改善了学习性能以提高收益,而氟哌啶醇则降低了学习性能。也就是说:接受L-DOPA治疗的参与者比接受氟哌啶醇治疗的参与者更有可能选择与更高奖励相关的刺激。计算建模结果表明,奖励预测误差幅度的差异足以使TD学习模型预测操作对选择行为的影响。
上面阐述的一些注意事项适用于Pessiglione等人的研究。Pessiglione及其同事承认,他们所服用的药物如何影响多巴胺能信号转导的不同方面,例如: 强直性与阶段性发放,或不同的多巴胺受体。值得注意的是,他们没有考虑干预措施是否也会通过对动机或注意力的影响来影响学习行为(即其目标解释之一)。但是,他们提供的那种证据对于评估基于RPEH的解释性概括的相对深度是相关的。因为它可以证明基于奖励的学习和决策通常受到多巴胺能活动编码的奖励预测错误的调节。这可能表明,一方面RPE与多巴胺能活动之间的关系,以及在某些强化学习任务中的选择行为,另一方面显示出一定程度的不变性。
很少有人类研究探索药物对多巴胺能操纵与激励显著性归因和动机之间的联系。 其中一项研究涉及性动机的机制。Oei, Rombouts, Soeter, van Gerven和Both (2012)研究了多巴胺如何调节腹侧纹状体的激活,并提示在性刺激的潜意识处理过程中,它与多巴胺能途径一同是激励显著性的较大中皮层皮质机制的一部分。
激励显著性被认为是性刺激的一项基本属性,它将激发行为方式的倾向,引起人们的注意并引起进行性行为的冲动。基于ISH的对性动机的解释将声称,性欲是由大型中皮层-寡聚体网络中的过程产生的,该过程是由多巴胺释放到纹状体靶标中驱动的。多巴胺能激活会激发对性暗示和性无条件刺激的激励显著性,使这些刺激"需要"并引起注意。
Oei和他的同事在健康参与者中将fMRI与多巴胺能疗法相结合,通过给予L-DOPA和氟哌啶醇来探究无意识感知的性暗示的激励显著性的增强(或降低)。研究发现,与情绪中立和情绪低落相比,当发生性刺激时,L-DOPA显著增强了腹侧纹状体和背侧扣带回的激活(涉及认知控制,行动选择,情绪加工和运动控制的大脑区域)负面刺激。相反,当出现性刺激时,氟哌啶醇减少了这些区域的活化。结论是性刺激的处理对中脑中多巴胺水平的药理操作敏感。
这些发现为评估基于ISH的性动机解释的深度提供了一些相关证据,因为它们表明这种解释可能会与中皮质皮质网络中多巴胺能信号强度的变化保持不变,从而使性动机得以实现, 以及过度改变性动机的自觉知觉。然而,正如Oei及其同事所承认的那样,这些结果并未说明依赖多巴胺的激励显著性归因调节是否与性欲或行为方式倾向的增加(或减少)有关。他们也没有区分观察到的多巴胺能变化是否可以通过TD学习算法中的奖励预测信号来预测。因此,此类研究开辟了以下可能性:多巴胺能干预实际上并未影响进行性行为的注意力或动机(即基于ISH的性动机解释的目标解释现象),并且该干预措施可能已经影响了通过奖励预测错误的影响进行性动机的神经计算,这些学习是强化学习的基础。
本文对现有文献做出了两种类型的贡献,这对认知科学的历史学家和哲学家都应引起人们的兴趣。首先,本文对导致制定RPEH的主要步骤进行了全面的历史回顾。其次,根据历史回顾,它明确了RPEH和ISH的确切解释,在这种情况下,可以合理地认为基于RPEH的学习和决策现象的神经计算解释比基于ISH的解释更深层次。
从历史的角度来看,可以看出RPEH的制定和随后的成功至少部分取决于其结合心理学,神经科学和机器学习的若干研究线索的能力。通过将RL的计算框架应用于1960年代以来收集的有关多巴胺能神经元的神经生理和行为数据集,RPEH以定量精确和紧凑的方式将多巴胺的神经功能与认知功能联系起来。
现在应该清楚的是RPEH和ISH可以说是当前的主要替代品,它们是关于多巴胺能活性编码信息类型的假设。因此,他们并不能自己解释为什么人和其他动物表现出与学习,决策或动机有关的某些类型现象的原因或方式。尽管如此,对于多巴胺能神经元的编码提出了不同的主张,这些假设为以多巴胺为中心的对这些现象的不同解释提供了基础。
本文研究了一些这样的解释,并在解释深度的两个维度上进行了对比。尚未确定基于RPEH的解释实际上比基于ISH的替代解释更深入(在所考虑的解释深度的两种意义上)。对于以多巴胺为中心的解释,这两个假设的动机是暂时的和不完整的。但是,从本文讨论的相关可用证据中,有理由暂时相信,对于至少某些与学习,决策或动机相关的现象,目前基于RPEH的某些解释具有更广泛的范围或具有更大的不变性 而不是一些基于ISH的替代解释。