[论文笔记]ECCV2016_A Siamese Long Short-Term Memory Architecture for Human Re-Identication

Title: A Siamese Long Short-Term Memory Architecture for Human Re-Identification

Authors: Rahul Rama Variora¹, Bing Shuaia¹, Jiwen Lub², Dong Xuc³, Gang Wanga¹

Affiliations:

School of Electrical and Electronic Engineering, Nanyang Technological University, Singapore, Singapore.
Department of Automation, Tsinghua University, Beijing, China.
School of Electrical and Information Engineering, University of Sydney, Sydney, Australia.

Contribution:

将Long Short-Term Memory (LSTM)融入到了孪生网络（siamese network）中。能够以序列的方式处理局部图像，从而提高局部特征表达能力。
Market-1501, CUHK03 and VIPeR数据集上达到当时的最优。

1. Introduction

当计算直方图或者卷积+池化操作时，得到的特征是局部的，并且特征之间互相独立。而引入RNN可以学习局部特征之间的关系。

2. Related Works

略。见深度学习行人重识别进展

3. 系统框架

框架图如下图

流程：

A. 输入：将图像划分成若干个条带，对每个条带子图像块，不是输入原始图像，而是输入两个计算的特征。

一个是Local Maximal Occurrence (LOMO)
一个是Color Names (CN)

B. 对于影像对$p,q$对应的第$r$个水平条带（行）的特征，分别形成两个向量$x_{r}^{p}, x_{r}^{q}$送入平行的LSTM网络（即孪生网络）。这里作者用单层LSTM网络。分别得到两个隐藏层输出$h_{r}^{p}, h_{r}^{q}$

C. 然后按下述公式再乘以权重（这里是全连接层？）得到$s^{p}, s^{q}$

D. 最后，两个特征向量$s^{p}, s^{q}$的距离用欧式距离计算得到

E. 损失计算是按照contrastive loss，在$s^{p}, s^{q}$基础上得到

相关阅读：Contrastive Loss (对比损失)，注意Y=0/1的标签和论文是反的

训练

正负样本对是1：2
优化器是RMSProp

测试

query和gallery数据集中各有$N_{query}$和$N_{gallery}$张图像，各自两两配对送入孪生网络，那么就有$N_{query} \times N_{gallery}$个样本对。最后的决策取决于$s^{p}, s^{q}$之间的欧氏距离$D_s(s_p,s_q)$。如果使用了多个特征，就分别计算，最后算平均距离。