阅读CVPR论文“Local Relation Networks for Image Recognition”的小结
该论文的研究背景是:卷积层一直是计算机视觉中的主要特征提取器。然而,卷积中的空间聚合大多应用固定过滤器,但这些过滤器在对具有不同空间分布的视觉元素进行建模时效率低下。本文提出了一种新的图像特征提取器,即局部关系层,它根据局部像素对的组成关系自适应地确定聚合权重。
研究动机:人类拥有“以有限的方式看到无限的世界”的非凡能力,人类可以通过感知一组有限的低级视觉行为来组合无限的高级视觉行为,并形成对所观察场景的理解。本文模拟这种思想,提出局部关系层,构建了一个可以在局部区域的视觉元素之间自适应地推断出有意义的组合结构,通过局部像素对的可组合性来调整聚合权重,提出了一种更有效的图像特征提取器。
主要贡献:
①卷积层和拓展:提出自下而上的方式确定聚合权重,更加有效提取视觉行为
②提出胶囊网络
③提出自动注意力网络,弥合了将组合性引入表示的一般理念
所提出的网络结构(如下图):
实验结论:本文将局部关系层作为图像特征提取器,提出将组合性引入表示的理念。使用自下而上的方法实现聚合权重,显著提升了视觉行为提取的效果,由这个新层组成的深度网络在 ImageNet 分类上展示了强大的结果,具有 26 层和瓶颈残差块的 LR-Net 在 ImageNet 图像分类任务 的 top-1 准确度上比常规的 26 层 ResNet 显著高出了3%。
未来工作展望:
1、优化GPU内存调度,提升模型速度
2、探索更好的设计,超越先进的卷积方法
3、探索其他属性和其他视觉任务的适用性。
浙公网安备 33010602011771号