Task-Driven Convolutional Recurrent Models of the Visual System
Task-Driven Convolutional Recurrent Models of the Visual System(视觉系统的任务驱动卷积递归模型)
https://github.com/neuroailab/tnn
卷积循环神经网络(Convolutional Recurrent Neural Network, ConvRNN)将RNN结合CNN
循环神经网络(Recurrent Neural Network,RNN)
RNN因为拥有一定的记忆能力,而解决了许多序列预测的问题。
卷积神经网络(Convolutional Neural Network,CNN)
Abstract
与当前的机器视觉行为执行仅涉及前馈过程不同,人类及灵长类动物的视觉行为执行包含前馈、反馈和时间预测等多种过程的整合。前馈卷积神经网络(CNN)是当前最先进的对象分类任务,例如ImageNet。CNN也不能完全的描述神经元的活动,因为CNN还缺少生物视觉系统中重要的两种结构:
- 每个视觉皮层内部的密集的局部循环结构;
- 不同区域之间的远程连接,例如从视觉层次的较高部分到较低部分的反馈 。
在这里,我们探索了重现 / 循环在提高分类性能中的作用。我们发现标准的递归形式(普通的RNN和LSTM)在ImageNet任务的深度CNN中不能很好地执行。相比之下,结合了旁路和门控两种结构特征的新型细胞能够显著提高任务的精确度
- 门控(Gating):决定上一状态/现在的输入值有多少是需要保留(记住)/接受的;
- 旁路(Bypassing):未被上一层改变的数据直接流入下一层
简介
将RNN结合CNN,形成一种卷积循环网络(Convolutional recurrent networks, ConvRNN)
近期的研究工作表明,基于任务优化的深度卷积神经网络(CNN)是灵长类动物大脑视觉编码的精准量化模型。目前与其他模型类别相比,用于识别 ImageNet 目标的 CNN 可以更好地解释视觉系统中神经元的平均时间响应(temporally-averaged response)。来自底层、中层、高层的卷积层的模型单元分别提供了发生在早期(V1 区)、中期(V4 区)和更高的视觉皮层区域(下颞叶皮质,即 IT 区)的神经诱发反应的已知最好线性预测值。
但灵长类动物的视觉系统还有不能用前馈 CNN 建模的其他解剖结构。这些结构包括(1)每个皮层区域内密集的局部循环连接以及(2)不同区域间的远程连接,例如从视觉层次的较高部分到较低部分的反馈。
灵长类动物大脑的视觉系统中「循环」(recurrence)的功能尚未得到充分研究。
我们假设给 CNN 添加循环和反馈有助于这些模型执行行为相关任务(ethologically-relevant task),并且这样的增强网络可以更好地解释视觉路径中神经响应的精细时间轨迹。
尽管其他研究是将 CNN 的输出作为 RNN 的输入来解决目标分割等视觉任务 [McIntosh 等人,2017],但我们选择将循环架构整合进 CNN 中,因为这样的架构在神经科学文献中很普遍。
图1:模型体系结构示意图。

卷积循环网络(ConvRNN)是将局部循环单元和远程反馈连接组合在一起添加到 CNN 的骨干网络上。在我们的实现中,沿着黑色或红色箭头进行的传播需要一个时间步(10 ms)来模拟皮质层间的传导延迟。
尽管其他工作已经使用CNN的输出作为RNN的输入来解决视觉任务,如对象分割或动作识别,但在这里,我们在CNN本身内部集成和优化了递归结构。我们发现,标准的重复基序(例如香草RNN,LSTM)在参数匹配的前馈基线上并不能提高ImageNet的性能。然而,我们设计了新颖的局部细胞(local Cell)结构,
上图其中的局部结构和参数组合可以千奇百怪,比如上图中的ConvRNN Cells的具体结构就可以选用ResNet Block、Vanilla RNN、LSTM、Reciprocal Gated等结构。
图2 局部循环单元架构的比较

(a)ConvRNN 单元间的架构差异。标准 ResNet 和标准 RNN 单元都只有旁路(见论文)。LSTM 单元有只门控,在图中用 T 字连接符表示,但是没有旁路。reciprocal 门控单元两个都有。
(b)多种 ConvRNN 和前馈模型随着参数数量变化产生的性能变化。彩色的点将相应的 RNN 单元合并到 6 层前馈架构(「FF」)中。「T」表示展开的步数。经过超参数优化的 LSTM ConvRNN 和 reciprocal 门控单元 ConvRNN 通过黑线连接到未优化版本。
-
测试了使用标准RNN细胞、普通RNN和LSTM来增强CNN是否可以提高ImageNet对象识别的性能(图2a)。我们发现,这些信元在引入类似AlexNet的6层前馈主干时增加了少量的准确性(图2b)。
-
标准的RNN细胞结构,虽然很适合于一系列的时间任务,但不太适合包含在深层CNN中。
-
研究人员通过暴力自动搜索算法来设计Cell的类型,从数以千计的模型中发现成功的关键在于两点:
我们推测这是因为标准单元缺少两个关键属性的组合:(1)门控,其中隐藏状态的值确定在下一个时间步传递、保留或丢弃多少自下而上的输入;以及(2)旁路,其中零初始化的隐藏状态允许前馈输入原封不动地传递到下一层,就像ResNet类体系结构的标识快捷方式中一样(图2a,左上角)。重要的是,这两个特征都被认为解决了梯度分别反向传播到递归网络的早期时间步长或深度前馈网络的早期层时梯度消失的问题。
图3 :ConvRNN 的超参数化和搜索结果。

(a)局部循环单元的超参数化。箭头表示输入单元、隐藏状态和输出之间的连接。问号表示可选连接,可能是常规或深度可分离的卷积,可选择卷积核大小。层(l-1 out、l in 和 l out)之间的反馈连接始终存在。带有问号的方框表示可选择 sigmoid 或 tanh 非线性激活函数、加法,或恒等连接(identity connection,像 ResNet 中一样)这样的多重门控。最终,从 l+k out 层开始的远程反馈连接可能会进入局部单元输入、隐藏状态或输出.
(b)ConvRNN 搜索结果。每个蓝色的点都表示一个模型,采样自训练了 5 个 epoch 的超参数空间。橙色的线是最后 50 个模型的平均性能。红色的线表示搜索过程中该点表现最好的模型。
图4:最优的局部循环单元和全局反馈连接

-
(a)搜索过程中表现最好的模型的 RNN 单元架构。红色的线表示每个最好的独特模型(图3b 中的红线)所选择的超参数(连接和与滤波器大小)。KK 表示卷积,dsKK 表示卷积核大小为 K*K 的深度可分离卷积。
通过统计发现,最优秀的网络基本都采用了深度可分离的卷积被用来处理局部循环结构,从而实现对网络中类似 ResNet 的前馈骨干网络进行多重门控。此外,小部分远程反馈连接可以提升任务性能。
-
(b)搜索中的远程反馈连接。(顶部)每条轨迹表示 100 个样本窗口中有特定反馈连接的模型的比例。(底部)每一个条表示具备给定反馈的模型与不具备该反馈的模型之间的性能中值差异。颜色与上面图中相同的反馈颜色一致。
-
(c)在 224px 大小的 ImageNet 上完整训练的模型的性能。我们比较了 ResNet-18的18 层前馈基础模型(Basenet)、基于该Basenet的具有可训练时间常数(“时间衰减”)的模型、具有或不具有全局反馈连通性的搜索中值模型以及其最小展开控制(T=12)的性能。“随机模型”是从模型搜索的初始随机阶段随机选择的。参数计数(以百万为单位)显示在每个条的顶部。RESNET模型与[He等人,2016]中一样进行了培训,但具有相同的批次大小64,以与ConvRNNs进行比较。
统计发现,ConvRNNs展开的步骤越多(T,展开步骤应该指RNN循环的次数。所以增加展开步骤,参数数量不增加)ConvRNNs性能越好。总体而言,到达ResNet同水平的网络只使用了其75%的参数数量(每个长条上方显示的是参数数量,单位:百万)。
图5:用 ConvRNN 对灵长类动物腹侧流神经动态进行建模

note:V1:初级视觉皮层, V2:第2视区,V3:第3视区,V4:第4视区,IT:颞下回皮层,
(a)用于拟合神经动态的 ConvRNN 模型在 4 到 10 层具备局部循环单元和远程反馈(红色箭头)。
(b)与大脑的腹侧层次一致,V4 的大多数单元都与第 6 层的特征最佳匹配;pIT 匹配第 7 层;cIT/aIT 匹配第 8/9 层。
(c)与神经动态拟合的模型特征与这些响应的噪声上限很接近。y 轴表示在 held-out 图像上预测值和真实的响应值之间相关单元的中值。
结论
ConvRNN开创性的添加了循环/远程反馈来拟合神经元的活动,运用自动搜索超参数的方法找到了一些关键结构:门控、旁路以及深度可分离结构,并在在V4和pIT区域表现突出。
因此,我们可以看到基于任务优化的 ConvRNN 比前馈网络更好地解释了灵长类动物视觉系统中神经激活的动态,这说明在执行不同复杂视觉行为时大脑的循环连接扮演着重要角色。然而对于cIT/aIT的低拟合说明该区域可能存在着更加不同或者复杂的结构,有待我们去发现。
浙公网安备 33010602011771号