【跨模态智能分析】人物关系检测、指代表达、指代分割

主要内容来自于北京航空航天大学刘偲老师在 CSIG 云讲堂的报告《跨模态智能分析》

人物交互关系检测：Parallel point detection and matching

近年来，在目标检测和识别领域取得了较大进展。但是，要了解场景中的情况，还需要认识到人类如何与周围物体互动。比如下面中间的图，有一个 couch，还有很多人，就知道这些人和 couch 的关系是 sit on。

传统方法都是采用 two-stage 的方法，先用 faster-rcnn 检测出来很多个 bounding box，然后把任意两个 box 配对，就有 C(n^2) 个 pair，然后把所有的 pair 送到一个分类网络中，判断这些 box 之间是不是有关系？如果有关系，是哪一种关系？

但这样的话，就带来一个挑战问题：算法复杂度高，无法实习应用。

因此，提出了下面的方法：

PPDM: Parallel point detection and matching for real-time human-object interaction detection. CVPR 2020.

这个方法主要是提出了一个 interaction point，就是下图中的绿点，同时可以定位到主语和宾语。这就是 point detection branch，相当于定位到三个点。

第二个阶段，是 point matching branch。对这个图来说，可能有多个人，可能有多个球，这样就要确认到底是哪个人在打哪个球，把对应的人和球找到。

方法框架和常规的方法不一样，分为两个并行的 branch，上面分支是点检测，下面分支是点匹配，两个 branch 是可以并行的，因此，可以达到近实时的处理效果。

下图是一个实验结果，纵轴是精度，横轴是每张图片的耗时，可以看到，该方法的精度是非常高的，同时速度也是最快的。这个方法也是第一个可以做到实时的方法。

下图是在 HICO-DET数据集上的一个结果，可以看出，该方法的精度非常高，同时，速度可以达到每秒37帧。

A Real-time cross-modality correlation filtering method for referring expression comprehension, CVPR 2020

指代表达是要做下面的事，提供一句话“拿着白色飞盘的红衣男子”，然后在图中画一个框，把这个人找到。这个和一般的目标定位不一样，因为里面有“红色衣服”这样的属性，还有“拿着白色飞盘”这样的动作，要深刻的理解图像才能找到对象，这个任务会非常难。

这个方法是怎么做的呢？首先有一个文本的理角，有一个 expression encoder，然后得到一个文本的特征。然后对图像提取特征，这里是一个非常 general 的做法，就是提取 multiscale 的特征。

接着把本文的特征看作一个 kernel ，来和图像的 feature map 做卷积，最后得到一个输出，得到 woman 在哪里。然后通过前面的图像信息来计算 size 和 offset。得而得到最终的结果。

下面是在各个数据集上的实验结果对比，可以看到，该方法是大幅的超越了 state-of-the-art。

下面是视化的实验结果，可以看到检测的结果还是非常神奇。绿色的是 ground truth，绿色的是本方法的结果，蓝色的是 MAttNet 的结果。

Referring image segmentation via cross-modal progressive comprehension, CVPR 2020

Linguistic structure guided context modeling for referring image segmentation, ECCV 2020

是在上一个工作的基础上做一个分割。

从动机上来看，主要是依照人类的做法。首先，人会在图像中找到一些实体，比如说人，飞盘等等。第二步，做一个关系推理，知道其他人不是我们的目标，只有拿着白色飞盘的人是我们的目标。相当于“飞盘”给人一个强化，最后得到最终结果。

该方法的 framework 如下。首先提取文本特征，然后，提取多尺度的图像特征，同时还会结合 “坐标特征”。

接下来是 entity perception，就是定位到所有的实体。接下来是进行关系推理，利用动作来强化我们感兴趣的目标。这里相当于是模拟了人的一个感知过程。

最后，text-guided feature exchange 是不同层特征的融合，这里融合主要是可以综合利用不同层的信息，最后得到一个分割的结果。

因为关系的推理是非常重要的一环，下面重点说下这部分：

entity perception: 视觉特征 \(X\) 和文本特征 \(q\) 使用双线性融合。

relation-aware reasoning：多模态全连接的图 \(G\) 被构建起来，每一个节点对应了图像中的一个区域。使用 GCN 最重要的是两点，你的点是怎么定义的，你的边及权重是如何定义的。每一个目标就是一个节点，然后使用一个 attention 机制，来强调动作。

该方法在4个数据集上，都取得到 state-of-the-art 的效果。

posted @ 2020-09-26 22:44 高峰是我啦阅读(1539) 评论(0) 收藏举报

刷新页面返回顶部