论文阅读笔记（十五）【CVPR2016】：Top-push Video-based Person Re-identiﬁcation

Approach

特征由两部分组成：space-time特征和外貌特征。space-time特征由HOG3D【传送门】提取，其包含了空间梯度和时间动态信息；外貌特征采用颜色直方图【传送门】和LBP【传送门】特征，并对同一个行人的所有帧采用平均池化。

定义训练集，其中是从标记为 y_i 的行人视频中提取的特征向量。定义两个特征向量的距离为：，采用马氏距离，具体为：

其中 M 为正半定矩阵。

（1）采用Top-push距离学习提高Top-rank匹配

正样本对的距离小于所以相关负样本对的距离最小值，其中 ρ 设置为1：

该项损失函数：

减小同类样本间的距离，使得同类行人视频间更收敛：

top-push距离学习的目标函数，其中 α 属于 [0, 1]：

该方法称为Top-push distance learning（TDL）.

（2）优化算法：

① 计算样本对的外积：

② 计算马氏距离：

③ 目标函数改写：

④ 采用随机梯度下降法来计算半正定矩阵 M，在第 t 步，假设 M = M_t，定义三元组的索引（i, j, k），当前梯度为：

⑤ 要求 M_t+1 保持半正定。对 M_t+1 进行特征分解：

对角矩阵 D_t+1 将负值清除，重新对 M_t+1 进行计算。

（3）算法流程：

（4）匹配：

定义待测行人的特征向量为：x_p，参照行人的特征向量为：x_g，则两者间的距离为：

Experiments

（1）实验设置：

① 数据集：PRID2011和iLIDS-VID

② 参数设置：λ = 1e-3，若损失函数减小，则在每次迭代以1.01倍进行扩大；若损失函数增大，则以0.5倍减小.

③ 特征提取：每一帧被resize为128*48，并被划分为8*16大小的patch，并包含50%的重叠，最终划分为155个patch来提取颜色直方图和LBP特征。所有样貌特征被concat为1705维的特征向量。HOG3D提取出的特征向量为1200维，最终合并为2905维。

（2）实验结果：

posted @ 2020-01-12 20:40 橙同学的学习笔记阅读(342) 评论(0) 收藏举报

刷新页面返回顶部

橙同学的学习笔记