多目标跟踪(MOT)论文随笔-SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC (Deep SORT)

网上已有很多关于MOT的文章，此系列仅为个人阅读随笔，便于初学者的共同成长。若希望详细了解，建议阅读原文。

本文是tracking by detection 方法进行多目标跟踪的文章，在SORT的基础上进行了改进(SORT见前一篇随笔)。
论文地址：https://arxiv.org/pdf/1703.07402.pdf
代码地址：https://github.com/nwojke/deep_sort

文章概述

本方法最大的特点是加入了appearance信息来提高之前SORT的性能，用cosine 距离来度量 tracks 和 detection 的相似度以减少 SORT算法中ID switch的次数（减少了45%），并使用Kalman预测和实际detection间的平方马氏距离来过滤可能性小的匹配。

文章观点

文章方法

采用递归卡尔曼滤波和逐帧数据关联的传统单一假设跟踪方法。

1. 状态估计

2. 指派问题

使用combined距离来作为cost matrix进行度量各个track和detection之间的距离，这里文中只使用cosine距离进行度量（即将lambda设置为0），使用马氏距离排除不可能的情况，既基于由卡尔曼滤波器推断的可能的物体位置忽略不可行的分配。

3. 级联匹配

物体被遮挡一段时间后，卡尔曼滤波预测的不确定性大大增加并且状态空间上可观察性变得很低，并且马氏距离更倾向于不确定性更大的track，这是由于减少了detection的标准差距预计的轨迹的距离。因此这里引入级联匹配，优先匹配detection与最近出现的track；
Matching Cascade算法见下，在最后结束算法时使用SORT中的IOU距离来解决局部遮挡的问题，通过计算unmatched tracks（只有前一帧是unmatched的）和 unmatched detection的IOU distance，详细见最后的代码流程图。

4. Appearance 描述

通过在大规模re-id数据集上pre-trained深度网络来提取128维的appearance特征，用L2正则化将特征投影到单位超球面上来与余弦距离进行匹配，网络结构见下（需要注意的是此处的detection用的是POI中的detection坐标，文中的CNN网络用于提取bbox中的特征）。

文章结果

相对于SORT，本文主要解决的是ID Switch过大的问题，从结果中可以看出ID Switch比之前下降了45%，并达到了state-of-the-art；
MOTA，MOTP，MT，ML，FN指标相对于之前都有提升，并且速度下降不大，很实用；
FM的上升主要是因为联合的matrix中过于强调appearance，导致在有遮挡或者丢失时detection的错误导致；
FP的升高很多，文章中提出这主要是由于静态场景中detection的错误以及过长的允许丢失的track age所导致的（相对于SORT只用相邻帧进行匹配来说，Deep SORT允许高达30帧的丢失，而Kalman的等速运动模型没有改变，这主要造成了FP的升高）。

代码流程图

posted @ 2018-03-25 11:17 Ivon_Lee 阅读(7655) 评论(2) 编辑收藏举报

刷新页面返回顶部

Loading.AI