A reinforcement learning algorithm for spiking neural networks

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

Published in D. Zaharie, D. Petcu, V. Negru, T. Jebelean, G. Ciobanu, A. Cicortas¸ A. Abraham and M. Paprzycki (eds.), Proceedings of the Seventh International Symposium on Symbolic and Numeric Algorithms for Scientific Computing (SYNASC 2005), pp. 299–306. IEEE Computer Society, 2005.

 

Abstract

  本文提出了一种新的用于脉冲神经网络的强化学习机制。该算法是针对随机IF神经元网络而推导的,但是它也可以应用于通用脉冲神经网络。通过依赖于突触前和突触后神经元发放的突触变化来实现学习,并通过全局强化信号进行调节。该算法的有效性已在一个生物学启发的实验中得到了验证,该实验模拟蠕虫来寻找食物。我们的模型恢复了一种在动物中实验观察到的神经可塑性形式,将一个符号的脉冲时序依赖性突触变化与由突触前脉冲确定的相反符号的非缔合性突触变化结合起来。该模型还预测,脉冲时序依赖的突触变化的时间常数等于神经元的膜时间常数,这与大脑中的实验观察结果一致。这项研究还导致发现了一种生物学合理的强化学习机制,该机制可以通过调节带有全局奖励信号的脉冲时序依赖可塑性(STDP)起作用。

 

1 Introduction

  脉冲神经网络(Maas and Bishop, 1999; Gerstner and Kistler, 2002)被认为是第三代神经网络(Maas, 1997a)。结果表明,它们比上一代网络(具有McCullogh-Pitts神经元或具有连续的sigmoidal激活函数)的神经元具有更高的计算能力(Maas, 1997b)。但是,研究脉冲神经网络的主要兴趣是它们与生物神经网络的相似之处。这样可以在设计神经模型时从实验神经科学中汲取灵感,并利用从模型的仿真和理论分析中获得的知识更好地了解大脑的活动。

  用于脉冲神经网络的强化学习算法尤其重要,尤其是在体现计算神经科学的情况下,其中由脉冲神经网络控制的智能体通过与环境交互进行学习。理想情况下,智能体应该通过无监督学习或强化学习来发展自己的内部环境表征,而不要进行监督学习,以最大程度地减少由人类程序员引起的偏差(Florian, 2003)。

  现有的用于脉冲神经网络的强化学习算法通过将不规则脉冲的波动与奖励信号相关联来工作,该网络由发放泊松脉冲序列的神经元组成的网络(Xie and Seung, 2004)。该算法高度依赖于神经元的泊松特性,并且在使用常用的神经模型(例如IF神经元)时需要在神经元中注入噪声。因此很难与这些神经模型结合使用。同样,该学习模型假定神经元通过调节其发放率对输入进行瞬时响应。这部分地忽略了神经膜电位的记忆,而神经膜电位的记忆是脉冲神经模型的重要特征。可以用于脉冲神经网络的另一种强化学习算法是通过增强随机突触传递来实现的(Seung, 2003)。

  在此,我们提出了一种新的强化学习算法用于脉冲神经网络。该算法是针对概率(随机)IF神经元网络的解析推导,并在概率和确定性神经元网络上进行了测试。我们提出的学习规则是突触局部的,假设强化信号扩散到网络中:突触的变化依赖于强化和突触前后神经元的活动。

  在第2节中,我们首先介绍算法的推导。接下来我们将讨论该算法与其他类似算法的关系(第3节),以及它与神经科学的相关性(第4节)。在第5节中,我们描述了验证该方法学习能力的实验。最后一节是结论。

 

2 Derivation of the algorithm

2.1 Analytical derivation

  我们提出的算法是作为OLPOMDP强化学习算法的应用(Baxter et al., 1999, 2001)而推导的,该算法是GPOMDP算法的在线变体(Bartlett and Baxter, 1999a; Baxter and Bartlett, 2001)。GPOMDP假定智能体与环境的交互是部分可观察的马尔可夫决策过程,并且智能体根据概率策略μ来选择动作,该概率策略μ取决于几个真实参数的向量θ。GPOMDP是通过最大化智能体所获得的奖励的长期均值进行分析得出的。已经获得了与OLPODMP收敛到局部最大值有关的结果(Bartlett and Baxter, 2000a; Marbach and Tsitsiklis, 1999, 2000)。

  我们考虑一个在离散时间内演化的神经网络。在每个时间步骤 t 处,神经元 i 要么以概率σi(t)发放(fi(t) = 1),要么以概率1 - σi(t)不发放(fi(t) = 0)。神经元通过具有功效wij(t)的可塑突触连接,其中 i 是突触后神经元的索引。功效可以是正的或负的(分别对应于兴奋性突触和抑制性突触)。全局奖励信号r(t)被广播到所有突触。

  通过将每个神经元 i 视为独立智能体,将神经元的发放/非发放概率作为相应智能体的策略μi,传入突触的权重wij作为向量θi来参数化智能体的策略,并如果将突触前神经元的发放状态fj表示为对智能体可用的环境的观察,我们可以将OLPODMP应用于神经网络。结果是以下可塑性规则更新了突触,从而优化了网络所获得奖励的长期均值:

其中δt是一个时间步骤的持续时间,学习率γ是一个小的常数参数,z是资格迹,并且ζ是由上一个时间步骤中的活动导致的z的变化的符号。折扣因子β是一个参数,可以取0到1之间的值,也可以写成β = exp(-δt / τz),其中τz是z的指数衰减的时间常数。

  到目前为止,我们还遵循了在(Bartlett and Baxter, 1999b, 2000b)中进行的推导。但是,与这些研究涉及无记忆的二值随机单元的网络不同,从现在开始,我们将在这里考虑随机LIF神经元的网络,这些网络在离散的时间内根据以下条件演化:

其中 τi 是泄漏时间常数,右侧的总和表示在一个时间步骤中由突触前神经元发放引起的电流注入引起的电位增长。神经元以概率σ(Vi(t))随机发放。这对应于神经元的带噪阈值,在脉冲神经模型中也称为逃逸噪声(Gerstner and Kistler, 2002)。因此我们有:

如果神经元发放(fi(t) = 1),则电位重置为基值(重置电位),Vi(t) = Vr。通过按时间反推扩展公式4,直到神经元 i 最近发放的时刻t - nδt,我们得到:

如果我们忽略wij在两个突触后脉冲之间的间隔的变化,由于参数 γ 和/或 z 的值很小,这个近似值是合理的,我们有:

通过在公式3中引入这一点,我们有:

我们看到,当一个突触后脉冲跟随一个或多个在前一个突触后脉冲之后发出的突触前脉冲时,ζ 是正的,因为它是一个概率,所以0 ≤ σ ≤ 1;并且因为发放概率随膜电位升高而增加,所以。因此,我们有一个脉冲时序依赖的 z 增强。z 的抑制是非关联的,因为每个突触前脉冲不断减小 z 直到发出突触后脉冲。

  我们可以选择将逃逸噪声 σ 建模为有界指数函数(Gerstner and Kistler, 2002):

其中θi是神经元的阈值电位,τσ和βσ是常数正参数。对于指数逃逸噪声,,并且我们有:

因此,由在 t 发出的突触后脉冲和在t - kδt发出的突触前脉冲组成的脉冲对导致 z 的增强,βσ exp(-(k-1)δt/τi)。因此,我们恰好具有 z 的增强对相对脉冲时序的指数依赖性。

  时间步长 δt 应该足够小,以使 σ 的值远小于1。如果允许 σ 取接近1的值,则 z 可能会发散。应选择参数 τσ 作为 δt 的函数,因为如果指数逃逸噪声函数的所有参数保持不变,则在给定的有限时间内的发放概率会随着 δt 的变化而变化。

  应选择参数 β 和 γ,使得1/(1-β)和1/γ与系统的混合时间相比较大。对于马尔可夫过程,可以严格定义混合时间,可以将其视为从动作发生到该动作的效果消失的时间。但是,β 不能任意设置为接近1,因为这会导致梯度估计中的大方差趋向于最优值。因此,在设置 β 中存在偏差-方差权衡。有关这方面的详细信息,请参见(Baxter et al., 1999; Bartlett and Baxter, 1999a; Baxter et al., 2001; Baxter and Bartlett, 2001; Bartlett and Baxter, 2000c,a)。

 

2.2 Generalization to other neural models

  模拟中常用的神经模型通常是确定性的。在这种情况下,强化学习算法的一个简单泛化是仍然使用公式9同时将 σ 视为常数参数。此外,如果使用的神经模型不是LIF,则同一公式中的 τi 可能仅表征可塑性机制,与神经元动力学无关。我们将证明该算法在实验中证明是有效的,即使在这些泛化之后。

  该算法不受离散时间使用的限制,并且可以通过取极限δt → 0轻松地重新制定连续时间。

 

3 Relationship and comparison to other reinforcement learning algorithms for spiking neural networks

  可以看出,这里提出的算法与其他两种现有的脉冲强化学习算法具有共同的分析背景(Seung, 2003; Xie and Seung, 2004)。

  Seung (Seung, 2003)通过考虑突触是智能体而不是我们所做的神经元来应用OLPOMDP。智能体的动作是释放神经递质囊泡,而不是神经元的脉冲,优化的参数是控制囊泡释放的参数,而不是与神经元的突触连接。结果是一个学习算法在生物学上是合理的,但还没有实验证据。

  Xie和Seung (Xie and Seung, 2004)没有对神经膜电位的综合特征进行详细建模,并认为神经元通过改变其泊松脉冲序列的发放率来瞬时响应输入。该研究推导出了一种类似于GPOMDP的回合式算法,并将其扩展到类似于OLPOMDP的在线算法,没有任何理由。可以看出,由于算法的回合式性质,在调整符号并忽略总和之后,资格迹的表达式,(Xie and Seung, 2004)中的公式13与我们论文中的公式3。通过将(Xie and Seung, 2004)中的电流放电函数 f 重新解释为逃逸函数 σ,并将衰减的突触电流hij重新解释为突触前脉冲对神经元膜电位Vi的贡献,该神经元由于泄漏而衰减,我们可以看到Xie和Seung的算法在数学上等价于推导的算法,更准确地说是此文。然而,我们对数学框架的不同实现允许直接推广和应用于模拟中常用的神经模型,而Xie和Seung算法由于不可避免地依赖于神经元的泊松特性而不允许这样做。

  三种算法的共同理论背景表明它们的学习性能应该是相似的。

 

4 Relevance to neuroscience: Reinforcement learning and spike-timing-dependent plasticity (STDP)

  我们的具有指数逃逸噪声的概率IF神经元算法所暗示的可塑性规则具有 z 的增强对突触前和突触后脉冲之间的时间间隔的指数依赖性,以及 z 的非关联抑制依赖于突触前脉冲,如第2节所示。如果强化 r 为负,则 z 的增强决定了 w 的抑制,因此我们有脉冲时序依赖性抑制和突触功效的非关联增强。这种类型的可塑性已经在电鱼的大脑中通过实验发现(Han et al., 2000),并且是一种特殊形式的脉冲时序依赖可塑性(STDP)。

  STDP是突触变化对突触前和突触后动作电位的相对时间的依赖性,这是在各种生物神经系统中通过实验观察到的现象(Markram et al., 1997; Bi and Poo, 1998; Dan and Poo, 2004)。STDP的典型例子是当突触后脉冲在几十毫秒的时间窗口内跟随突触前脉冲时突触的增强,以及当脉冲的顺序颠倒时突触的抑制。相关性是近似指数的。

  如果强化 r 为正,我们的模型恢复了典型的脉冲时序依赖性增强的指数特征。然而,在这种情况下,该模型预测的是非关联性抑制,而不是通常观察到的脉冲时序依赖的关联性抑制。在下面介绍的实验中,我们已将派生算法隐含的 z 的非关联抑制替换为指数脉冲时序抑制。因此,我们探索了强化信号调节标准STDP的学习特性。我们发现奖励调节的STDP作为强化学习机制也是有效的。以摘要形式发表的类似结果似乎是独立发现的(Farries and Fairhall, 2005)。

  我们的模型还预测,脉冲时序依赖性增强时间窗口的时间常数等于神经元的膜时间常数τi。这与实验观察结果一致,因为这两个时间常数具有相同的数量级——几十毫秒。已经推测这两个时间常数应该是可比较的,因为这确保只有那些到达神经元整合其输入的时间范围内的突触前脉冲才会被增强,从而强制执行作为STDP典型特征的因果关系的要求(Abbott and Nelson, 2000)。同样的预测也来自一个理论模型,该模型将STDP视为一种减少突触后脉冲序列可变性的机制(Bohte and Mozer, 2004)。

  值得注意的是,我们的模型恢复了大脑的这些特征,因为导致该模型的唯一成分是遵循参数化概率策略的部分可观察马尔可夫决策过程的抽象框架,以及具有IF神经元的指数逃逸噪声的概率版本,其中IF神经元是最简单且最广泛使用的脉冲神经模型。

  我们的算法意味着STDP由奖励信号 r 调节。这可以通过神经调节器在大脑中实现。例如,多巴胺携带一个短延迟奖励信号,指示实际奖励和预测奖励之间的差异(Schultz, 2002),它非常适合我们基于连续奖励调节可塑性的学习模型。众所周知,多巴胺和乙酰胆碱调节突触的经典(发放率依赖性)长期增强和抑制(Seamans and Yang, 2004; Huang et al., 2004; Thiel et al., 2002)。目前通过神经调节剂调节STDP的实验证据仅限于通过激活β-肾上腺素能受体发现海马CA1锥体神经元中脉冲时序依赖性增强的放大(Lin et al., 2003, 图6F)。如前所述(Xie and Seung, 2004),可能是其他研究未能检测到神经调节剂对STDP的影响,因为它们是在体外进行的,奖励电路可能不起作用,并且奖励信号可能已经固定到给定的值。

  因此,这种算法的推导导致了一种强化机制的发现,这种机制在生物学上是高度合理的,并且可能在我们的大脑中起作用。

 

5 Experiments and results

5.1 Experimental design

 

5.2 Experiment 1: Training a network of probabilistic integrate-and-fire neurons

 

5.3 Experiment 2: Training a network of Izhikevich neurons

 

5.4 Experiment 3: Reinforcement learning through modulated STDP

 

5.5 Results

  在所有三个实验中,模拟蠕虫很快(在不到一分钟的模拟时间内)学会了寻找食物来源。图1说明了蠕虫的典型轨迹。如果食物放在可接近的区域,它总是能够执行任务。接近食物后,蠕虫的嘴仍然靠近食物,并在周围摆动,如图3所示。因此,所提出的算法作为概率IF神经元网络的强化学习机制是有效的,它是为此涉及的,这也是为通用脉冲神经网络设计的,例如由Izhikevich神经元组成。奖励调节的STDP对于强化学习与分析派生算法一样有效。

 

6 Conclusion

  总之,我们已经为脉冲神经网络推导出了一种新的强化学习机制,并在一个受生物学启发的框架中测试了它的功效。该算法是为随机IF神经元派生的,但我们验证它也可以应用于通用脉冲神经网络。我们的模型恢复了实验观察到的脉冲时序依赖性增强的指数特征,并预测脉冲时序依赖性增强时间窗口的时间常数等于神经元的膜时间常数,与大脑中的实验观察结果一致。该算法还导致发现了一种基于脉冲时间依赖可塑性调制的强化学习机制,这种机制可能在大脑中起作用。

posted on 2021-02-26 17:41  穷酸秀才大草包  阅读(196)  评论(0编辑  收藏  举报

导航