2024-3-18
PHA: Patch-wise High-frequency Augmentation for Transformer-based Person Re-identificationhttps://openaccess.thecvf.com/content/CVPR2023/papers/Zhang_PHA_Patch-Wise_High-Frequency_Augmentation_for_Transformer-Based_Person_Re-Identification_CVPR_2023_paper.pdf
本文的问题
现如今发现在ViT(属于transformer)中加入传统的CNN可以提升模型的性能, 针对传统Re-ID,研究者通过对数据集图片的高频和低频部分进行提取分别做Re-ID 发现,transformer在低频做Re-ID性能比传统的CNN网络效果好, 但是在高频部分, transformer却比CNN的效果差。

上图为问题的主要描述
问题的进一步发现和解决办法
- 进一步描述:
通过进一步的观察transformer的encoder层的高频平滑部分(即高频绝大多数被transformer给过滤掉了), 随着层数变高, 高频部分的含量越来越少(对应着sim的大)。
![]()
- 解决办法
提出了一种Patch-wise High-frequency Augmentation(PHA)的方法, 主要包括两块: 1. 增强高频部分降低低频部分。2.逐块对比学习 。
增强高频部分降低低频部分

先将原始图片进行离散Haar小波变换, 得到对应的低频和高频分量, 为了防止高频分量被抑制, 将top-k的高频部分进行掩码, 然后把这些高频部分切成小块的部分经过transformer。这个部分作为辅助。
逐块对比学习

Patch-wise Contrastive Loss 是在对比同一身份的高频增强嵌入(high-frequency enhanced embeddings, 即第一部分)与原始嵌入(embeddings, 直接通过VIT进行特征提取得到的)。目标是拉近属于同一身份的嵌入,同时推开不同身份的嵌入,从而提高模型对关键高频组件(如衣物纹理)的特征表示能力,提取出更具区分度的个人表征。


浙公网安备 33010602011771号