Transformer Tracking

Transformer结构

Transformer模型中采用了 encoer-decoder 架构

  • encoder,包含self-attention层和前馈神经网络,self-attention能帮助当前节点不仅仅只关注当前的词,从而能获取到上下文的语义。
  • decoder在这两层中间还有一层attention层,帮助当前节点获取到当前需要关注的重点内容。
Encoder层结构

工作流程:
数据输入

  1. 进行embedding操作,转换为词向量
  2. 添加额外向量Positional Encoding决定当前词的位置
  3. Positional Encoding与embedding的值相加,输入到encoder层

encoder层: self-attention处理-encode一个词时,关注句子的其他部分

  1. Layer normalization在每一个样本上计算均值和方差,归一化数据
  2. 前馈神经网络的计算,并行执行各种路径(路径间没有依赖关系)
  3. Layer normalization
  4. 输入到下一个encoder
Decoder层结构

Multi-head Attention:有助于网络捕捉到更丰富的特征/信息

Transformer与RNN/LSTM

RNN系列的模型,并行计算能力很差。(形成了序列依赖关系。
Transformer的特征抽取能力比RNN系列的模型要好
并不是说Transformer就能够完全替代RNN系列的模型了,任何模型都有其适用范围

Transformer tracking

TransTrack,一个联合检测和跟踪(JDE范式)的新框架,它利用Query-Key机制来跟踪当前帧中已存在的目标并且检测新目标
Query-Key机制:目标对象是query而各个图像区域是keys。应用于MOT中,前一帧的目标特征作为query,当前帧的图像特征作为key

组成:骨干网络、特征融合网络和预测头

特征提取-提取模板和搜索区域的特征。

输入-一对图像块(模板图像补丁z和搜索区域图像补丁x)
输出-搜索区域和模板被重新塑造为正方形,骨干网络处理获得特征映射:fz和fx。

特征融合网络-对特征进行增强和融合

有效地融合特征fz和fx。1×1卷积得到两个低维特征映射fz0和fx0,在空间维数上平坦fz0和fx0,得到fz1和fx1,作为模板分支和搜索区域分支的输入

  • ECA模块增强特征表现,CFA模块融合特征,ECA和两个CFA就形成了一个融合层,融合层重复N次,然后一个额外的CFA来融合两个分支的特征图,解码一个特征映射f
  • ECA通过multi-head self-attention以残余项的形式自适应地整合了特征图不同位置的信息。对输入X引了一个空间位置编码过程,使用一个正弦函数来生成空间位置编码XEC
  • CFA通过使用multi-head self-attention以残余项的形式来融合来自两个输入的特征向量。空间位置编码也用于CFA。还使用FFN(完全连接的前馈网络)模块来增强模型的拟合能力。

注意力图
随着融合层的深入,搜索区域的 self-attention map倾向于加强目标的位置,而到搜索区域的 cross-attention map则集中于所识别的目标的边界。
模板特征成为包含大量目标边界信息的信息库,而搜索区域特征仍然保留其空间信息;在确定目标后,模板分支的特征转而存储大量目标的边界信息,成为用于回归的特征库。

预测头-对增强的特征进行二进制分类和包围盒回归,生成跟踪结果

由分类分支和回归分支组成,每个分支都是具有隐藏维度d和ReLU激活函数的三层感知器。
头部对特征图f的每个向量进行预测,以得到HxWx前景/背景分类结果,并根据搜索区域大小得到HxWx的归一化坐标。

posted @ 2021-12-29 20:20  忘川酒  阅读(275)  评论(0编辑  收藏  举报