Convex Combination Consistency between Neighbors for Weakly-supervised Action Localization概述
1.针对的问题
之前的WS-TAL方法大多使用片段预测来形成视频类分数,然后优化视频分类损失。在此过程中,片段预测(或片段注意力权重)用于分离前景和背景。然而,片段预测通常是不准确的,因为没有帧级标签,导致整体性能受到阻碍。
2.主要贡献
•考虑到邻近片段在WS-TAL任务中的关键作用,作者提出了一种新颖的通过相邻片段间的凸组合实现片段扩展的策略。
•提出了三个正则化项来增强视频语义,片段预测和片段特征方面的一致性。
•所提出的策略是通用的,可以应用于具有视频级监督和点级监督的各种WS-TAL方法。
3.方法
提出了一种新的C3BN以实现鲁棒的片段预测。核心思想是利用视频内在的平滑性来进行有效的模型正则化,C3BN通过探索视频数据的固有特征包含了两个关键设计。首先,由于相邻片段的自然连续性,作者提出了一种利用相邻片段的凸组合来增加片段多样性的微观数据增强策略。其次,提出一种宏观-微观一致性正则化策略,使模型在视频语义,片段预测和片段特征的转换方面保持不变(或等变)
微观数据增强策略通过凸组合混合相邻的片段对(称为父片段),并生成一组新的片段(称为子片段)。
宏观-微观一致性正则化策略旨在使模型拥有三个所需的属性。
1)视频语义的一致性或不变性。计算子片段序列上的视频分类损失,使子片段的视频级语义与原始的一致。由于子片段更加模糊,模型被迫将更多的注意力放在非显著的动作片段上,从而减少了背景的假警报。
2)片段预测一致性或等方差。基于视频的自然平滑性,作者认为模型也应该在相邻片段之间平滑运行。也就是说,强制子片段的预测与父片段预测的凸组合保持一致。这种正则化有两个优点。首先,它迫使模型学习将相邻片段之间的决策边界变平,这可以提高受干扰片段预测的稳定性,从而在给定的测试数据集上实现精确的动作边界定位。其次,它可以减少相邻片段/视觉上相似的片段之间的差异,从而在时间维度上产生更连续的预测。
3)片段特征对比一致性。受图像聚类的启发,表示学习是分类器学习的补充,作者建议进一步正则化模型的中间特征。更重要的是,将特征一致性正则化集成到对比学习方案中。在示例(片段)判别的帮助下,该模型可以保留信息,以识别分离片段的细节,这对于视频中的前景和背景分离特别重要。通过进一步施加一致性约束,表示进一步学习自动将语义相似的片段分组在一起。为了同时达到这两个目的,作者引入了一种软版本的基于InfoNCE的对比损失。此外,设计了一种双向参考机制,其中子片段和父片段交替查询。
模型结构如下:

在原始的T个片段特征{ft}Tt=1上,对相邻的片段特征进行凸组合,生成增强片段特征F',凸组合过程见图左下方,通过一些一维卷积层将特征映射到对应特定任务的嵌入E和E'。
视频语义一致性:与原始F相比, F' 是一个局部移位版本,而视频语义应该保持不变。因此可以将F'输入进网络,得到与Lcls相同形式的视频分类损失,上面已经提到,这种做法可以避免模型只关注几个判别片段。
片段预测一致性:E按照MIL标准流程得到片段特征的logits分数S,通过softmax操作归一化S得到P,E'经过同样的操作得到P',在P上应用凸组合得到
,通过MSE损失来加强p'和
之间的一致性,也就是论文中的片段预测一致性。
代码片段特征对比一致性:一致性”指强制模型去学习表示的相对相似性,反映出每个子片段有多少父片段。“对比”指模型应该能够区分每个子片段的父片段和其他父片段。具体来说,使用一个由FC层和L2归一化组成的投影头将嵌入特征E映射到低维单位超球面。输出表示为Z,同样可以得到E'对应的投影Z',将子片段z't作为query,对应的父片段zt和zt+1为正key,其他片段都为负key,则可以构造一个对比损失,为了探索更细粒度的模式,并加强Z和Z'之间的一致性正则化,作者提出了一个双向机制,即进一步把Z的元素看成query,把Z'的元素作为key,从而对对比损失进行优化。

浙公网安备 33010602011771号