CVPR 2016 paper reading (3)

DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations, Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, Xiaoou Tang, in CVPR 2016.

这篇文章接收了一个large-scale的带有完善标注的服装数据集DeepFashion。

它包含超过800,000张图片，标注有大量的attributes，clothing landmarks，和图像在不同场景（包括商店，街拍和消费者）下的相关性。

为了阐明DeepFashion的优势，文中提出一个新的deep model， FashionNet，通过联合预测义务attributes和landmarks学习衣物特征。

衣物识别算法主要面临三个基本挑战：

1）衣物通常在类型、纹理和裁剪上有较大不同；

2）衣物经常会有变形或遮挡；

3）在不同场景下，同一件衣物表现差别很大，例如在线购物的照片和消费者的自拍照等。

先前的研究克服这些挑战通过使用语义attributes（例如color，category，texture），衣物位置（masks of clothes），或者cross-domain图像相关性来标注衣物数据集。但是不同数据集使用不同信息标注，这篇文章提出的DeepFashion数据集联合进行所有的标注。

FaceNet：能够同时预测landmarks和attributes

网络结构与VGG-16相似，第一到四个卷积层完全相同，FaceNet的第五个卷积层特别为衣物任务设计，分为三个分枝，红色分枝抓取整个衣物的global feature，绿色分枝基于估计的landmark位置做pooling，抓取local feature，蓝色分枝预测landmarks的位置和可见性（是否被遮挡）。红色分枝和绿色分枝的输出连接在一起联合预测衣物类别，attributes，对衣物pair之间的关系进行建模。如下图所示：

Forward pass：

分为三个阶段：（1）一幅衣物图片输入网络，传入蓝色分枝，预测landmark位置；（2）估计的landmark位置被传入pool5_local，在可见的landmark位置周围进行max-pooling，其余不可见landmark位置的响应gated to zero，获得local feature （对变形和遮挡具有不变性）；（3）fc6_global和基于landmark pooled的local feature fc6_local被连接到fc7_fusion.

Backward pass:

Backward pass 后向传播四种类型的损失函数：

1）回归损失：landmark的定位 v表示可见性，l表示landmark位置

2）softmax分类损失：对landmark可见性和衣物类别的预测

3）交叉熵损失：attributes的预测这个公式感觉有点问题，a_j和（1 - a_j)的位置应该换成相应的后验p才对

4）triplet loss：成对衣物图像的metric learning

通过加权联合所有损失函数进行迭代优化，迭代分为两个步骤：

1）将蓝色分枝作为main task，其余分枝作为辅助任务。为实现这个目的，对landmark定位的回归损失函数和landmark可见性的分类损失赋予较大权重，其余损失函数赋予较小权重。这样做是因为对landmark的估计与其他任务是相关的，同时训练可以更好收敛；

2）预测衣物类别和attributes，学习衣物之间的成对关系。

以上两步迭代进行直到收敛。

实验中landmark的影响较大，该数据集中的landmark如下示例所示：

文中构建了三个平台，使用DeepFashion对不同方法进行评估：

1）category and attribute预测

2）In-shop clothes检索

3）Consumer-to-Shop衣物检索

很有用的数据集！

posted @ 2017-03-01 23:31 dongbeidami Views(470) Comments(0) 收藏举报

刷新页面返回顶部

dongbeidami

CVPR 2016 paper reading (3)

公告