论文阅读(一):GRiT
前言
最近在研究VBench的指标选择与计算,发现其复用了多个模型,因此追根溯源,阅读了相关模型的文章,并与大家分享。第一篇要分享的论文名为GRiT: A Generative Region-to-text Transformer for Object Understanding,发表于2024年的ECCV会议。该文章提出一种transformer架构处理object understanding任务,返回<region, text>对。其中,region代表检测物体的位置,text表示对于该物体的描述。该描述既可以是表示物体类别的短描述,也可以是对于物体内容的长描述,相当于结合了object detection和dense captioning任务。
object detection V.S. object captioning
object detection任务是计算机视觉中的核心任务之一,旨在识别图像或视频中的特定目标物体,并确定它们的位置和类别。由于其同时处理定位和分类两个任务,因此,是一个闭集任务。 Open-vocabulary object detectors能够检测在训练集中未出现的目标,但在使用时,仍然需要定义一个用于分类的集合,因此也是一个闭集的框架。
对于传统的object detection任务,训练集中的类别为[猫,狗],采用交叉熵损失训练一个分类模型后,该模型只能够检测出输入是猫还是狗。
对于Open-vocabulary object detectors,训练过程中采用image-text pair,能够获取更多的信息,处理训练集中不存在的目标。但是在使用时,仍然需要给定一个用于分类的集合,计算集合中每个text与待分类的image之间的相似度,实现分类任务。
Object captioning与object detection不同,该任务生成对于物体的描述,而非分类任务,因此,该任务是一个开集的框架。GRiT基于该框架,输出图片中所有物体的bounding box和description。
GRiT
GRiT由三个组件组成:视觉编码器,前景特征提取器和文本解码器。视觉编码器提取输入特征,前景特征提取器检测前景对象区域并对特征图进行裁剪。将对象特征作为输入,文本解码器自回归式地生成对于该对象的描述。文本解码器不仅可以输出对象的类别,也能够输出对象的具体描述,如颜色,动作等,因此,GRiT统一了object detection和dense captioning。
视觉编码器
GRiT采用ViT作为视觉编码器的backbone,为了减少计算量,GRiT中的self-attention替换为基于14x14的window-based attention。这种划分窗口的attention限制了窗口之间的信息融合,因此,每隔4个window-based attention插入一个self-attention用于增强窗口之间的信息融合。同时,在ViT输出特征的基础上进行上/下采样,获得多尺度特征。不同尺度特征与输入图片的比例为\(\{\frac{1}{8}, \frac{1}{16}, \frac{1}{32}, \frac{1}{64}, \frac{1}{128}\}\)。
前景特征提取器
前景特征提取器用于检测对象的bounding box和分数,采用两阶段的物体检测器,包括proposal generator和RoI head。proposal generator用于产生多个检测框,RoI head用于细化生成的检测框并且计算前景物体的置信度。最后,前景特征提取器根据NMS删除重叠区域较大的框。
文本解码器
用前景特征提取器提取的bounding box裁剪图像特征到固定尺寸,如14x14,并进行展平,作为文本解码器输入。文本编码器由6层transformer块组成,begin token为[task],用于指定任务类型为object detection或dense captioning。此外,为text token添加位置编码。
训练
数据集
对于object detection任务,采用COCO数据集的COCO2017进行训练与验证。对于dense captioning任务,采用Visual Genome数据集进行训练与验证。
训练细节
采用CenterNet作为proposal generator,训练时生成2000个待选框,测试时生成256个待选框。采用3-stage Cascade R-CNN作为RoI head,文本解码器采用最后一个stage生成的bounding box。每一个stage中的分类类别设置为2,代表前景和背景,分数由不同阶段前景分数取平均得到。ViT backbone在ImageNet1k上采用MAE进行训练,网络其他部分随机初始化。

浙公网安备 33010602011771号