Transformer Tracking

Transformer结构

Transformer模型中采用了 encoer-decoder 架构

encoder，包含self-attention层和前馈神经网络，self-attention能帮助当前节点不仅仅只关注当前的词，从而能获取到上下文的语义。
decoder在这两层中间还有一层attention层，帮助当前节点获取到当前需要关注的重点内容。

Encoder层结构

工作流程：
数据输入

进行embedding操作，转换为词向量
添加额外向量Positional Encoding决定当前词的位置
Positional Encoding与embedding的值相加,输入到encoder层

encoder层: self-attention处理-encode一个词时，关注句子的其他部分

Layer normalization在每一个样本上计算均值和方差,归一化数据
前馈神经网络的计算，并行执行各种路径(路径间没有依赖关系)
Layer normalization
输入到下一个encoder

Decoder层结构

Multi-head Attention：有助于网络捕捉到更丰富的特征/信息

Transformer与RNN/LSTM

RNN系列的模型，并行计算能力很差。(形成了序列依赖关系。
Transformer的特征抽取能力比RNN系列的模型要好
并不是说Transformer就能够完全替代RNN系列的模型了，任何模型都有其适用范围

Transformer tracking

TransTrack，一个联合检测和跟踪（JDE范式）的新框架，它利用Query-Key机制来跟踪当前帧中已存在的目标并且检测新目标
Query-Key机制：目标对象是query而各个图像区域是keys。应用于MOT中，前一帧的目标特征作为query，当前帧的图像特征作为key

组成：骨干网络、特征融合网络和预测头

特征提取-提取模板和搜索区域的特征。

输入-一对图像块（模板图像补丁z和搜索区域图像补丁x）
输出-搜索区域和模板被重新塑造为正方形，骨干网络处理获得特征映射：fz和fx。

特征融合网络-对特征进行增强和融合

有效地融合特征fz和fx。1×1卷积得到两个低维特征映射fz0和fx0，在空间维数上平坦fz0和fx0，得到fz1和fx1，作为模板分支和搜索区域分支的输入

ECA模块增强特征表现，CFA模块融合特征，ECA和两个CFA就形成了一个融合层，融合层重复N次，然后一个额外的CFA来融合两个分支的特征图，解码一个特征映射f
ECA通过multi-head self-attention以残余项的形式自适应地整合了特征图不同位置的信息。对输入X引了一个空间位置编码过程，使用一个正弦函数来生成空间位置编码XEC
CFA通过使用multi-head self-attention以残余项的形式来融合来自两个输入的特征向量。空间位置编码也用于CFA。还使用FFN(完全连接的前馈网络)模块来增强模型的拟合能力。

注意力图
随着融合层的深入，搜索区域的 self-attention map倾向于加强目标的位置，而到搜索区域的 cross-attention map则集中于所识别的目标的边界。
模板特征成为包含大量目标边界信息的信息库，而搜索区域特征仍然保留其空间信息；在确定目标后，模板分支的特征转而存储大量目标的边界信息，成为用于回归的特征库。

预测头-对增强的特征进行二进制分类和包围盒回归，生成跟踪结果

由分类分支和回归分支组成，每个分支都是具有隐藏维度d和ReLU激活函数的三层感知器。
头部对特征图f的每个向量进行预测，以得到HxWx前景/背景分类结果，并根据搜索区域大小得到HxWx的归一化坐标。

posted @ 2021-12-29 20:20 忘川酒阅读(275) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部