Visual explanations from spiking neural networks using inter‑spike intervals
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
SCIENTIFIC REPORTS, (2021): 19037
Abstract
通过模拟大脑中的生物特征,脉冲神经网络(SNN)为传统深度学习提供了一种节能的替代方案。为了使SNN无处不在,一种用于分析和解释这种时间深度SNN的内部脉冲行为的"视觉解释"技术至关重要。直观地解释SNN将使网络更加透明,为最终用户提供一个工具来了解SNN如何进行时间预测以及他们为什么做出特定决定。在本文中,我们提出了一种用于SNN的生物学合理的视觉解释工具,称为Spike Activation Map (SAM)。SAM通过突出显示具有短脉冲间间隔(inter-spike interval)活动的神经元,生成与输入数据的每个时间步骤相对应的热图(即定位图)。有趣的是,在不使用梯度和真实标签的情况下,SAM会生成一个时间定位图,突出显示图像中的感兴趣区域,这归因于SNN在每个时间步骤的预测。总体而言,SAM开启了一个新的研究领域"可解释的神经形态计算",最终将允许最终用户对来自SNN的预测建立适当的信任。
人脑是最了不起的神经网络。它由多层神经元组成,这些神经元根据目标任务重新加权它们的连接。人工神经网络(ANN)或传统的深度学习模型合理地模拟了视觉皮层的结构特征,并在各种任务中表现出人类水平的性能1-3。尽管如此,ANN会产生巨大的计算成本来实现这些壮举,而平均人脑在近20 W的功率预算内运行4。许多现实世界的平台,如智能手机、自动驾驶汽车、语音助手设备(如Alexa)等,都存在资源和电池限制5。为了在此类平台上实现智能,神经网络的低功耗实现至关重要。脉冲神经网络(SNN)6-11为启用低功耗智能提供了一种替代且生物合理的方式。SNN通过在多个时间步骤上处理具有二值事件(即脉冲)的视觉信息来模拟生物神经元功能。SNN的这种离散脉冲行为已被证明可以在新兴的神经形态硬件上产生高能效12-14。
在最近的过去,两种广泛的SNN算法优化方法在使SNN在图像分类方面的性能更接近ANN方面取得了长足的进步(甚至在被认为是图像分类任务中的"奥林匹克"的Imagenet数据集上)。第一种方法,Conversion15-18,通过对发放阈值或权重进行归一化,将预训练的ANN转换为SNN,以将 ReLU(整流线性单元)激活转换为Integrate-and-Fire (IF)脉冲激活。到目前为止,转换技术已经能够在大规模架构和数据集上实现与ANN对应的竞争精度,但会产生较大的延迟或处理时间步长。第二种方法包括替代梯度下降方法16,19,20,这些方法使用近似梯度函数训练SNN,以克服LIF脉冲神经元的不可微分性。这些方法使SNN能够以更低的延迟和合理的分类精度从头开始训练。
尽管优化技术取得了重大进展,但与传统人工神经网络相比,对SNN的内部脉冲行为缺乏了解。神经网络被认为是"黑盒"。然而,随着神经网络的广泛使用,需要了解当网络预测或做出决定时会发生什么。在ANN方面,已经提出了几种解释或"视觉解释"工具22-25。这些工具已经找到了获得视觉解释和理解网络预测的实际用途。同样,SNN解释工具也非常重要,因为低功耗SNN正日益成为部署在医疗机器人26、自动驾驶汽车27和无人机28等实际应用中的可行候选者,在这些应用中,除了性能外,可解释性也很关键。在这项工作中,我们旨在阐明SNN的可解释性。
可解释性的简单方法是利用ANN域中广泛使用的可视化工具。其中,Grad-CAM25在应用方面具有巨大的灵活性,并且也被最先进的解释算法使用。Grad-CAM的作者表明,神经元从浅层到深层对任何目标类预测的贡献可以通过计算反向传播的梯度来量化。但是,SNN无法计算精确的梯度(即贡献),因为如图1所示的脉冲神经元的不可微积分和发放行为。此外,很难想象这种基于梯度的可视化(如Grad- CAM)可以类似于大脑,也可以模拟大脑的任何推理能力。首先,生物神经元无法计算精确的梯度(即贡献)6。此外,不能保证大脑在反向传播过程中保持下游突触权重矩阵的精确对称副本30,31。因此,需要探索一种利用SNN中生物合理的时间处理的可视化新概念。
在这项研究中,我们提出了一种用于SNN的可视化工具,称为Spike Activation Map (SAM)。SAM不需要任何反向传播或依赖梯度来获得"视觉解释"。相反,我们通过监测在前向传播期间在不同时间步骤上携带更多信息(即脉冲)的神经元来计算热图(或定位图)。我们利用生物学观察,即短脉冲间间隔(ISI)脉冲在神经系统中具有更多信息32-34,因为这些脉冲更有可能通过增加神经元的膜电位来诱导突触后脉冲。给定SNN的预测,SAM计算网络中每个神经元的神经元贡献分数(NCS)。NCS分数定义为具有指数核的先前脉冲的时序脉冲贡献分数(TSCS)的总和。对于在短时间窗口内多次出现脉冲的神经元,TSCS很高。相反,当神经元在较长时间才发放时,TSCS较低。然后,我们添加NCS值以获得随时间推移的热图,该热图突出显示归因于SNN预测的图像中的重要区域。我们注意到,与传统的ANN可视化工具不同,我们的SAM不需要目标类标签来找到贡献或视觉解释25,35。
使用所提出的SAM,我们研究并比较了两种流行的SNN训练算法的内部脉冲行为:基于替代梯度的训练和非平凡图像数据集(即Tiny-ImageNet)上的ANN-SNN15转换。然后,我们观察每一层在不同时间步骤上的脉冲表示,以了解SNN的时间特征。最后,我们提供了对先前观察到的稳健性结果的直观理解36,即SNN对于对抗性攻击更具弹性37。本质上,我们使用SAM测量干净样本和对抗样本之间的热图差异,以突出SNN相对于ANN的鲁棒性。请注意,在整篇论文中,我们将基于实值连续/可微激活(如ReLU)的神经网络称为ANN,以将它们与SNN区分开来。
Results
SNN‑crafted Grad‑CAM. Grad-CAM25突出显示对分类结果有很大贡献的图像区域。Grad-CAM计算从输出分类器logits到预定义目标层的反向梯度。之后,通过使用全局平均池化获得通道贡献分数。基于此,最终的热图被定义为所有特征图或通道的贡献分数的加权和。与传统的人工神经网络不同,SNN将脉冲序列作为跨多个时间步骤的输入。因此,我们可以在整个时间步长 T 中计算多个SNN制作的Grad-CAM热图。与Grad-CAM类似,我们通过累积所有时间步骤的梯度来量化每个通道的贡献:
其中,N是归一化因子,是第 k 个通道在时间步骤 t 的脉冲激活值,(i, j)是像素位置。请注意,我们使用给定图像的真实标签 c 来计算热图。因此,脉冲激活的通道加权和可以计算为:
为了与传统的基于ANN的Grad-CAM进行清晰的比较,我们在本文的其余部分将称为"SNN-crafted Grad-CAM"。值得一提的是,我们使用泊松发放率编码将静态图像转换为时间脉冲序列(详见"方法")。
SNN制作的Grad-CAM受到我们所说的"热图平滑效应"的影响,这种效应是由近似的反向梯度函数引起的。为了在浅层/初始层可视化热图,来自输出的梯度需要使用近似的后向函数穿过多个层(参见补充说明1)。累积的近似误差产生一个非判别热图,如图2a所示。请注意,开始和结束时间步骤几乎没有脉冲活动20,导致热图为零值。为了定量验证"热图平滑效果",我们计算了热图的像素方差。因此,包含非判别信息(即相似像素值)的热图应该具有较低的方差。在图2b中,与我们提出的SAM相比,SNN制作的Grad-CAM显示出较低的方差(将在下一节中讨论)。在SNN可视化中,有多个热图(即每个时间步骤一个热图)。因此,我们在图2b的所有时间步骤中使用最大方差值。此外,我们注意到图2a中SAM和SNN制作的Grad-CAM中的热图可视化在每个时间步骤上都不同,这表明SNN随着时间的推移查看相同输入的不同区域以进行预测。总体而言,SNN的可视化工具需要一个新的视角来规避近似梯度或反向传播的误差累积问题。在我们所有的实验中,我们使用基于LIF神经元的SNN的VGG111架构对复杂的Tiny-ImageNet数据集(即ImageNet数据集的子集)执行图像分类(有关网络架构和数据集的详细信息,请参见补充表1)。
Spike activation map (SAM). SAM是SNN的生物可信可视化的新范例。我们不需要使用任何类标签或执行反向传播来计算梯度。SAM仅使用前向传播中的脉冲活动来计算热图。因此,这种可视化不仅针对特定类别,而且突出显示网络针对任何给定图像关注的区域。令人惊讶的是,我们观察到即使没有任何真实标签,SAM也显示出有意义的可视化(图2a)。在数学上,我们的目标可以表述为找到一个映射函数f(·):
其中,Mt是SAM,St是时间步骤 t 的脉冲活动。我们利用生物学观察,即短脉冲间间隔(ISI)的脉冲对神经决策过程有很大贡献32-34。这是因为短ISI脉冲更有可能刺激突触后神经元,传达更多信息33,39,40。为了将其应用于我们的可视化方法,我们首先定义时序脉冲贡献分数(TSCS)。对于给定的神经元,TSCS评估时间 t' 的先前脉冲相对于当前时间 t 的贡献。很自然,前一个脉冲对当前神经元状态的贡献会随着时间的推移而减少。因此,TSCS值可以表示为:
其中,γ 是控制指数核函数陡度的超参数。
为了考虑多个先前的脉冲,我们定义了一个集合,它由第 k 个通道中位置(i, j)处的神经元的先前发放时间组成。对于每个时间步骤,我们通过将
中先前脉冲的所有TSCS值相加来计算时间步骤 t 的神经元贡献分数(NCS)
:
因此,如果神经元在很短的时间间隔内频繁出现脉冲,则神经元具有高NCS,反之亦然。最后,我们通过将脉冲活动Sij,t与NCS值Nij,t相乘并对所有 k 个通道求和来计算时间步骤 t 和位置(i, j)处的SAM热图Mij,t:
我们在图3a中说明了SAM的整体流程。对于每个神经元,我们计算NCS并在通道轴上添加值以获得SAM。在图3b中,我们描述了计算NCS的两个示例(案例A和案例B)。在案例A中,先前的脉冲发生在时间步骤tp1和tp2上,这两个时间步骤合理地早于当前的脉冲时间 t。结果,由于指数核,先前脉冲的贡献很小。另一方面,在案例B中,tp1和tp2接近当前脉冲时间 t。在这种案例下,神经元具有较高的NCS值。
在图4中,我们可视化了SAM在通过替代学习(图4c)以及ANN-SNN转换(图4d)训练的SNN上的定性结果。我们还展示了从相应的ANN获得的Grad-CAM可视化以供参考(图4b)。请注意,SAM不需要任何类标签,而Grad-CAM使用真实标签来创建热图。有趣的是,在SNN上从SAM获得的不同时间步骤的热图显示了与ANN上的Grad-CAM相似的结果。SAM中的感兴趣区域以有区别的方式突出显示。这支持了我们的断言,即SAM是SNN的有效可视化工具。此外,结果表明ISI和时间动态可以为深度SNN产生可解释性。到目前为止,还没有研究分析在SNN的不同层中学习到的基础信息。人们一直认为,随着我们深入研究,像ANN这样的SNN会以从通用到特定的方式学习特征。我们第一次将SNN中间层的解释可视化以支持这一假设。有趣的是,通过替代学习,SAM可视化(图4c)显示SNN的浅层代表低级结构,而深层则专注于语义信息。例如,第4层突出显示了狮子的边缘或斑点,例如眼睛和鼻子。另一方面,第8层突出了狮子的全脸。补充图2-7中提供了更多可视化结果。
此外,我们进行消融研究以了解超参数 γ 对公式4中SAM的影响。γ值决定了TSCS中指数核函数的陡度。具有高 γ 的核考虑了最近的脉冲历史,而低 γ 考虑了较长的脉冲历史。在图5a中,我们可视化了VGG11 SNN中不同层相对于 γ 的定位误差,用于转换和替代梯度训练方法。对于这两种方法,γ = 0显示最高的定位误差,因为核不过滤冗余和不相关的长ISI脉冲。另一个有趣的观察是,大 γ 值(例如1.0)的定位误差会增加。这是因为高 γ 限制了可靠的可视化,仅考虑最近的脉冲,并在很大程度上忽略了脉冲历史。
Comparison between surrogate gradient learning and conversion. 我们在图4c, d中比较了替代梯度学习和ANN-SNN转换的SAM可视化结果。从图中,我们观察到替代梯度学习的热图可视化趋势,在早期的时间步骤为零活动导致中间范围内的判别活动,然后在接近结束时再次为零活动。相比之下,转换在整个时间段内保持相似的热图。这与每个时间步骤的脉冲活动变化有关,如图5b所示。由于替代梯度学习考虑了训练期间的时间动态6,20,因此每一层都会随着时间的推移连续传递信息(即脉冲的数量)。另一方面,转换没有显示任何时间传播(有关更详细的解释,请参见补充图1)。此外,我们观察到替代梯度学习具有更准确(即类似于来自ANN的Grad-CAM)的热图,突出显示所有层的感兴趣区域。值得注意的是,转换方法仅突出显示对象的部分区域(例如柠檬),并且在某些情况下(例如鸟)错误的区域。图5c中的定位误差比较支持了这一观察结果。对于所有层,替代梯度学习显示出较低的定位误差。很明显,转换方法不考虑训练期间的任何时间动态。我们认为,这种缺失的时序依赖性导致可解释性降低。因此,我们断言通过替代梯度学习(结合时间动态)获得的SNN更易于解释。因此,以下小节中的所有可视化分析都集中在替代梯度学习方法上。
图6. 使用SAM可视化SNN的鲁棒性和感觉抑制行为。我们使用带有Tiny-ImageNet数据集的VGG11网络。(a) 使用SAM可视化稳健性。我们展示了关于干净和对抗性图像的Grad-CAM和SAM结果。与ANN对应物相比,来自具有SAM的SNN的热图显示出较少的变化(有关其他可视化结果,请参见补充图8)。(b) 关于快速梯度符号法(FGSM)攻击的不同攻击强度的分类精度。我们在ε = 4/255处计算干净 X 和对抗性输入XAdv的热图之间的归一化L1距离。对于SNN,我们报告了多个时间步骤的最大L1距离。(c) 多目标图像的SAM可视化。我们垂直连接两个图像并可视化网络关注的区域。请注意,由于我们在卷积特征提取器之后使用全局平均池化,因此无论输入图像分辨率如何,网络都可以进行预测。 网络在时间步骤结束时参与两个对象之一。我们还提供了从VGG11模型的输出分类器跨时间预测的两个类别的概率。
Adversarial robustness of SNN. 与人类视觉系统不同,神经网络容易受到对抗性攻击。这些攻击是通过向输入图像添加小而结构化的扰动来创建的。先前的研究36,41断言,使用替代梯度训练的SNN比ANN对于对抗性输入更稳健。为了展示SNN在对抗性噪声攻击下的有效性,我们对Grad-CAM和SAM进行了定性和定量比较。我们使用快速梯度符号方法(Fast Gradient Sign Method, FGSM)攻击37和SNN精心设计的FGSM攻击36来攻击ANN和SNN,ε = 4/255(有关实现细节,请参见"方法"和补充说明3)。在图6a中,我们观察到Grad-CAM在攻击ANN之前/之后显示出可视化的巨大变化。事实上,攻击后的ANN开始关注图像的随机部分,因此对于对抗性输入进行了错误分类。另一方面,SAM在攻击之前/之后显示几乎相似的结果。有趣的是,我们观察到SAM在对抗性攻击的情况下在较早的时间步骤相对于干净的输入可视化略有变化。但是,随着时间的推移,对抗输入和干净输入之间的可视化看起来相似,突出了合适的感兴趣区域。这意味着SNN中的时间处理能够补偿和校正输入中的任何噪声。我们推测,在SNN中积累时间信息会给系统带来鲁棒性。此外,我们展示了关于攻击强度的分类精度,以及图6b中ε = 4/255处干净图像和对抗图像的热图之间的归一化L1距离。结果表明,在准确性和可视化方面,SNN比ANN更鲁棒(有关其他实验,请参见补充图9)。
Sensory suppression behavior of SNN. 神经科学研究表明,人脑经历42-44"感觉抑制"。也就是说,当这些目标同时出现时,大脑会专注于多个目标之一。巧合的是,使用SAM,我们观察到SNN在呈现多个目标时也会模拟感觉抑制。为了证明这一点,我们将两个从TinyImageNet数据集中随机选择的图像连接起来,并将连接后的图像传递到使用替代梯度学习训练的SNN中。有趣的是,如图6c所示,神经元在较早的时间步骤中竞争注意两个目标,最后在后面的时间步中只关注/注意一个目标。请注意,对于每张图像,来自SNN的最终预测与SAM显示的最终热图相匹配。对于每个时间步骤,我们还可视化最后一层(即分类器)中两个类的置信度。每个对象的置信度也根据网络的参与区域而变化。这些结果释放了SNN的生物可信特征,并进一步将SAM确立为合适的解释工具(补充图10提供了更多示例)。
Discussion
我们提出了一种用于SNN的可视化工具,称为SAM。我们首次展示了时序SNN相对于静态ANN的可解释性相关优势。我们利用SNN的时间动态来根据先前脉冲的历史计算前向传播中的神经元贡献分数。这与传统的ANN可视化工具不同,因为SAM不需要任何目标标签和反向传播梯度。在没有任何标签的情况下,SAM突出显示判别区域以进行预测。我们还比较了SNN中的两种代表性训练方法:ANN-SNN转换和替代梯度反向传播。ANN-SNN转换方法15-18将预训练的ANN转换为SNN。由于网络是在ANN域中训练的,因此训练的复杂性显著降低。通过仔细的阈值(或权重)平衡17,ANN-SNN转换在大规模数据集上显示出良好的性能。值得一提的是,在训练转换后的SNN的过程中没有考虑时间动态。最近,使用基于脉冲的反向传播20,45-47训练SNN受到了很多关注,因为它考虑了具有替代梯度的时间神经元动力学。我们的结果表明,在训练期间具有显式时间依赖性的替代方法比转换更易于解释。
人工神经网络中预测的解释由于其在现实世界场景中的实用性而受到了相当大的关注。类激活图(CAM)35通过在特征提取器末端使用全局平均池化层来突出图像的判别区域。CAM热图是通过对最后一个卷积层的特征图求和获得的。已经提出了CAM的几种变体48-50。然而,CAM中全局平均池化层的必要性限制了它的使用。为了解决这个问题,Selvaraju等人提出了Grad-CAM25,它是CAM的通用版本。Grad-CAM计算从分类器到需要视觉解释的给定中间层的反向梯度。因此,每个神经元对分类结果的贡献可以用相应的梯度值来量化。然后,通过使用基于梯度值的通道轴上的激活的加权和来获得2D热图。在这项工作中,我们证明直接应用Grad-CAM来计算SNN中的视觉解释不会产生准确的结果。这是由于LIF神经元的不可微性质干扰Grad-CAM以及Grad-CAM对时间动态的不依赖性。
在神经形态工程领域,有几项工作使用神经元活动或权重连接作为可视化工具。51的作者提出了一种实时图形可视化工具,用于分析连通性和生物物理过程(不考虑解释模型的决定)。我们的工作在揭示内部脉冲行为方面也有相同的目标。然而,SAM旨在可视化静态图像中的感兴趣区域,以了解SNN所做的预测。我们的可视化与ANN对应物(如CAM和Grad-CAM)中的视觉解释工作相似。Demin和Nekhaev52可视化了2层SNN中神经元的感受野。对于输出层,他们使用转发和倒数权重矩阵之间的相关性来计算感受野。对于隐藏层神经元,与输入层的权重连接可以直接用作感受野的像素级得分。然而,他们的方法仅限于具有互惠连接的两层网络。因此,很难将他们的方法应用于深度SNN以进行复杂的数据集解释。Deng等人53通过将输入脉冲流转换为基于帧的表示来可视化输入层中累积的脉冲。具体来说,每当发生运动时,它们就会从动态视觉传感器(DVS)相机中累积脉冲,以了解DVS图像的特征。然而,这与模型预测的解释无关(例如,浅/深SNN层在哪里集中进行预测?)。
我们的仿生SAM提出了一种很有前途的新技术,用于构建强大且对硬件友好的视觉推理系统。具体来说,在这项工作中,我们观察到具有SAM的SNN提供了相对于ANN对应物的对抗性噪声的稳健解释结果。强大的解释工具对于在无处不在的场景(例如自动驾驶汽车、医疗保健监控系统、国防等)中部署智能系统至关重要。所提出的SAM的一个巨大优势是它是硬件友好的,因为计算视觉解释的所有计算都在前向传播中。仅推理硬件加速器不包括反向传播和梯度计算模块,因为它们只执行前向传播计算。因此,SAM可以很容易地集成到最先进的加速器和神经形态计算引擎12-14。SAM需要内存来存储ISI和一个简单的计算模块(例如,查找表)来实现指数核, 这可以在具有边际成本开销的推理加速器中轻松实现。另一方面,GradCAM是一种广泛使用的传统ANN可视化工具,它需要一个反向传播模块和一个巨大的内存来存储梯度的计算图。因此,我们的SAM为实用且可解释的神经形态计算铺平了道路。在这项工作中,我们使用基于替代梯度学习(使用发放率编码)和ANN-SNN转换方法。这是因为这些优化算法允许在大规模数据集和更深的卷积架构上进行训练。另一种训练SNN的前瞻性方法是基于脉冲时序的学习算法54-56,其中每个神经元在所有时间步骤中只发放一次。因此,与其他算法相比,基于脉冲时序的学习需要较少数量的脉冲。然而,它们的功效仍然仅限于小规模数据集(即MNIST)和浅层架构,在这些架构中,使用SAM显示有意义的信息可能很困难。未来,随着基于脉冲时序的学习算法的发展,可以实现更复杂的数据集和架构,用它们来研究和分析SAM将是一件很有趣的事情。
Methods
Surrogate gradient backpropagation. 在本文中,我们可视化了两种代表性且广泛使用的训练方法的内部脉冲行为:替代梯度训练20和ANN-SNN转换15。由于ANN可以使用完善的优化方法和框架进行训练,因此来自ANN-SNN转换的SNN在非常大规模的数据集(例如ImageNet)上显示出可靠的性能。相比之下,由于近似的反向梯度7,20,45,47,大多数替代梯度训练方法仅限于小型数据集(例如,MNIST和CIFAR10)。这些简单的数据集太小,无法通过可视化热图进行分析。但是,20的作者最近提出了一种时间批量归一化技术,称为随时间的批量归一化(BNTT),用于在大规模数据集上对SNN进行替代梯度学习。我们将这个算法用于我们所有的替代梯度训练实验。
SNN制作的批量归一化层BNTT可提高训练稳定性并减少分类任务的延迟,同时保持准确性。我们在LIF神经元之前添加BNTT层。因此,加权的突触前输入脉冲被归一化为:
其中,是BNTT层中的可学习参数,ε 是数值稳定性的一个小常数,均值
和方差
是从每个时间步骤 t 的小批量样本中计算出来的。我们将SNN的所有中间层附加到BNTT层。在输出层,我们将输出神经元的数量设置为 C 类的数量。在输出端,我们通过将泄漏参数λ(公式8)固定为1来累积所有时间步骤的脉冲,以防止泄漏带来的信息损失。使用softmax层将此堆叠电压转换为概率分布。最后,我们将交叉熵损失计算为:
在此,yi 代表真实标签,T 是时间步骤的总数。然后,我们在所有时间步骤上累积反向梯度(有关BNTT替代学习的详细信息,请参见补充说明1)。
ANN–SNN conversion. 我们使用15中提出的阈值归一化方法来实现ANN-SNN转换方法。发放阈值(公式9中的θ)相对于实际脉冲输入进行归一化,以说明转换过程中的实际SNN操作。首先,我们将预训练的ANN的权重参数复制到SNN。然后,对于每一层,我们计算所有时间步骤的最大激活并将发放阈值设置为最大激活值。转换过程以分层方式设置阈值,从第一层开始,依次经过更深的层(有关详细信息,请参阅补充说明2)。请注意,我们在转换中不使用批量归一化59,因为所有输入脉冲的均值为零。此外,在之前的工作15-17之后,我们在转换过程中对ANN和SNN使用Dropout60。
Fast gradient sign method (FGSM) attack. 先前的研究表明,深度神经网络容易受到对抗性输入的影响。对抗性补丁方法在图像上添加一个小补丁。该补丁会对网络产生对抗性影响。然而,Subramanya等人61断言,这些方法很容易被Grad-CAM检测到,这限制了它的实用性。产生对抗性攻击的另一种方法是向输入图像添加不易察觉的噪声。FGSM37是一种广泛使用的基本攻击技术。FGSM在降低原始预测的置信度的方向上计算梯度的符号。最近,Sharmin等人36提出了一种SNN设计的FGSM攻击。它们在所有时间步骤上累积梯度。补充说明3中提供了有关FGSM攻击的更详细说明。
Dataset and network. 为了进行全面分析,我们仔细选择了实验数据集。这是因为MNIST62、CIFAR10和CIFAR10063等较小的数据集的分辨率太低(例如,28 × 28或32 × 32),无法产生任何有意义的可视化。ImageNet数据集具有较高的图像分辨率,但直接使用替代梯度训练SNN变得困难且耗时。因此,我们对作为原始ImageNet数据集的子集的Tiny-ImageNet进行了案例研究。Tiny-ImageNet由200个不同类别的ImageNet数据集38组成,具有100,000个训练图像和10,000个验证图像。图像的分辨率为64 × 64像素。我们的实现基于Pytorch64。我们为ANN和SNN采用VGG11架构(见补充表1)。对于ANN-SNN转换,我们使用500个时间步骤和发放阈值缩放16。对于替代梯度BNTT训练,我们使用标准SGD训练网络,动量为0.9,权重衰减为0.0005,时间步长为30。基本学习率设置为0.1。我们使用逐步学习率调度,在epoch总数的[0.5, 0.7, 0.9]处衰减因子为10。我们将epoch的总数设置为90。我们将具有替代梯度学习和转换的SNN的泄漏因子分别设置为0.99和1。为了可视化,我们均匀采样10张图像用于替代梯度学习和转换。
Evaluation metric for localization error. 为了定量比较转换和替代梯度方法的SAM可视化,我们定义了一个称为定位误差的度量。SAM可视化的定位误差是使用Grad-CAM可视化(从ANN获得)作为参考计算的。为了量化SAM和Grad-CAM之间的误差,我们计算了预测的SAM Mt(一个时间步骤一个SAM)和来自ANN的Grad-CAM G之间的交叉熵函数。然后我们选择所有时间步的最小误差,并将最小值定义为定位误差。
在此,N是归一化因子,(i, j)表示像素位置。