[CVPR2018]Context-aware Deep Feature Compression for High-speed Visual Tracking

基于内容感知深度特征压缩的高速视觉跟踪

论文下载：http://cn.arxiv.org/abs/1803.10537
对于视频这种高维度数据，作者训练了多个自编码器AE来进行数据压缩，至于怎么选择具体的网络，
作者又训练了一个基于目标选择具体AE的网络，再根据压缩后的特征图，进行协相关过滤操作追踪目标。

本文有趣的地方在于：
1. 两种加噪声的操作，既增加了鲁棒性，又相当于数据增强。
2. 为了自编码器的平稳训练和防过拟合提出了multi-stage distance loss。
3. 最后移除相应低的通道和自编码器针对通道而不针对图像大小。

摘要

作者提出了一种在实时跟踪领域高速且state-of-the-art表现的基于context-aware correlation filter的跟踪框架。这个方法的高速性依赖于会根据内容选择对应的专家自编码器来对图片进行压缩；context在本文中表示根据要跟踪目标的外观大致分的类。在预训练阶段，每个类训练一个自编码器。在跟踪阶段，根据给定目标选择最佳的自编码器——专家自编码器，并且在下面阶段中仅使用这个网络。为了在压缩后的特征图上达到好的跟踪效果，作者分别在与训练阶段和微调专家自编码器阶段提出了一种去噪过程和新的正交损失函数。多方认证这个方法表现良好且达到了显著的效果，超过100fps。

1. Introduction

视觉跟踪因为深度学习的出现效果提升显著。近年来，跟踪领域主要流行两种方法。一种是持续微调网络来学习目标的改变。虽然网络表现正确率高且具有鲁棒性，但是计算速度不足以满足在线跟踪的要求。第二种是先用深度网络提取特征，再接上correlation filters。但是表示大规模数据的特征如ImageNet，往往是高维度的。这往往也满足不了在线跟踪的速度需求。

本工作中，作者提出了一种基于correlation filter跟踪器，使用了context-aware的深度特征压缩来节省计算时间。这做法的动机是因为相比于分类和检测任务，低层次的特征图能充分表示单目标物体。更具体地说，作者训练了多个自编码器，每个种类一个。我们介绍一种无监督学习来对训练样本进行聚类，再根据每个类别训练一个自编码器。在跟踪阶段，给定特定的目标，context-aware网络会选择一个合适的自编码器。在使用新损失函数微调选定的专家网络后，网络输出压缩后的特征图。压缩的特征图降低了冗余性和稀疏性，并提升了追踪的正确率。

3. Methodology

TRAcker使用多个自编码器来压缩特征(TRACA)。每个专家自编码器根据各自类别对VGG-Net的特征图进行压缩。

3.1 Expert Auto-encoders

Architecture：自编码器提供了一种无监督的方法学习特征。假设有N_e个相同结构的专家自编码器。自编码器堆积了N_l个编码器和解码器，来对通道数进行压缩和解压。，。所有卷积层kernel size为3x3 + ReLU。

Pre-training：预阶段分为三部分。首先用所有样本（VGG-Net的输出）训练一个初始自编码器AE⁰，然后使用AE⁰的压缩特征图进行聚类来得到N_e个类。训练初始自编码的目的是为了后面更好收敛和更好finetune。为了初始自编码器更具有鲁棒性，作者加入了两个噪声的操作。一是固定数量的特征通道置0。二是交换特征图的一些向量来模拟现实生活中遮挡的情况。

考虑到初始自编码器重输入和最终输出有一段距离不好学，实验也观察到经常出现过拟合和不平稳收敛。作者提出了基于multi-stage距离的损失函数。假设X_j为输入的特征图，AE(X)为一部分的编码和解码层。

其中，第一个求和针对一个mini batch所有样本，m为mini-batch size；第二个求和就是所有特征图和对加噪声的特征图进行不同层数加解码的复原图之间的差。

聚类的时候，首先重复1000次找到2N_e的样本，从中找到他们之间的欧几里得距离最大的初始点，然后聚类。然后减去N_e个拥有最小样本的中心。

3.2 Context-aware Network

Architecture：基于内容的网络根据跟踪的目标选择具体的自编码器。首先加载VGG-M网络，内容网络由{conv1, conv2, conv3}和{fc4, fc5, fc6}组成，其中{conv1, conv2, conv3, fc4}加载VGG-M的权重。fc5输出1024，fc6输出类别，使用交叉熵训练。