跨模态行人重识别 RGB-Infrared Cross-Modality Person Re-Identification（ICCV 2017） - A1A1AA

跨模态行人重识别 RGB-Infrared Cross-Modality Person Re-Identification（ICCV 2017）

1. 概要

这篇论文相当于是跨模态行人重识别的开山之作，在此之前几乎没有人研究跨模态的行人重识别。
本文主要贡献有：
1.提出了用于跨模态re-id的数据集SYSU-MM01
2.提出了deep zero-padding（零填充），在one-stream网络中使用deep zero-padding使得其性能比two-stream网络要好

2. 思想

文中讲到，当前对于行人重识别（非跨模态）的网络可以分为三个部分：
1.one-stream
2.two-stream
3.Asymmetric FC layer（非对称全连接）

那么本文就是将deep zero-padding用于one-stream网络，如下图所示：

那么什么叫做deep zero-padding呢？看这个图

红色框、蓝色框代表不同模态数据，绿色框表示公共特征。虚线表示zero-padding连接

对于zero-padding，我的理解就是, 原本是两个不同模态的数据（图中domain1，domain2），为了要把它们放入one-stream网络学习，但是如果直接将两个模态的数据一起放入的话效果不好，于是
作者就想到了构造一个新的输入形式，原本是[domain1]或[domain2]的形式输入one-stream网络，但是现在变成了[domain1,domain2]的形式输入。

例如：假设有可见光图像（rgb）和红外线图像（ir），它们是不同的模态，即它们对应domain1和domain2。
那么如果一个rgb的图片要输入网络训练，但是没有红外线图片怎么办呢？那就zero-padding吧。也就是此时的输入形式为[rgb,0]
相应的要输入红外图片也是一样的，[0,ir]

那么，这么做有什么好处呢?
根据作者所说，这样做可以使得在前向和反向传播的过程中，会有rgb对应的节点，ir图片对应的节点，和共享节点，相当于是two-stream的功能。（额。。我对这个其实没理解，有没有哪个大佬可以解答）
然后作者在后面用了严格的数学梯度推导证明了，在前向传播过程和反向传播过程中，不相关的节点由于梯度为0不会更新。例如：当输入rgb图片的时候，反向传播过程中一些ir图片的特定节点的权重值不会更新。

若有错误，希望告知

posted on 2020-11-10 15:14 A1A1AA 阅读(558) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部


Copyright © 2024 A1A1AA Powered by .NET 8.0 on Kubernetes 博客园

导航

1. 概要

2. 思想