ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal Action Localization

0. 前言

相关资料：
- arxiv
- github
- 论文解读
论文基本信息：

领域：弱监督时序动作定位
发表时间：arxiv 2021, submitted to Tip(2021.4.7)

摘要

　　弱监督时间动作定位的目的是定位动作示例的时间边界，并仅用视频级别的标签识别相应的动作类别。传统的方法主要侧重于前景和背景帧的分离，只有单一的注意力分支和类激活序列。然而，我们认为，除了独特的前景和背景帧外，还有大量语义模糊的动作上下文帧。将这些上下文帧分组到同一个背景类是没有意义的，因为它们在语义上与特定的动作类别相关。因此，仅用一个类激活序列来抑制动作上下文帧是一个挑战。为了解决这个问题，在本文中，我们提出了一个称为ACM网络的动作上下文建模网络，它集成了一个三分支注意力模块，以同时测量每个时间点成为动作示例，上下文或非动作背景的可能性。然后，基于获得的三个分支注意力值，我们构建了三个分支类激活序列，分别表示动作示例，上下文和非动作背景。为了评估我们的ACM网络的有效性，我们在两个基准数据集THUMOS-14和ActivityNet-1.3上进行了大量实验。实验表明，该方法的性能优于目前最先进的方法，甚至可以达到与完全监督方法相当的性能。代码可在以下网址找到：https://github.com/ispc-lab/ACM-Net。

一.导言

　　随着视频内容的爆炸式增长，对视频的理解和学习引起了计算机视觉界的极大兴趣。作为视频理解的基本但具有挑战性的任务之一，时间动作定位或检测(其目的是在未经修剪的视频中对动作示例进行定位和分类)因其在视频检索[1]，[2]，摘要[3]，监视[4]，[5]，异常检测[6]等方面的巨大潜力而备受关注。由于深度学习的快速发展，近年来，许多方法[7]，[8]，[9]，[10]被提出，并在完全监督的定义下取得了显著的效果。然而，这些方法需要在训练期间对每个动作示例进行精确的时间注释，这非常耗时，容易出错，而且收集成本极高。相比之下，弱监督时间动作定位(W-TAL)只需要视频级别

　　现有的弱监督时间动作定位方法可分为两大类。一种方法[11]，[12]，[13]，[14]，[15]受弱监督图像语义分割任务[16]，[17]，[18]的启发，将弱监督时间动作定位作为视频识别问题，并引入前景-背景分离注意力机制来构造视频级特征，然后应用动作分类器来识别视频。而其他方法[19]，[20]，[21]，[22]将该问题描述为一个多示例学习任务[23]，并将整个未修剪视频视为一个包含positive和negative示例的包，即前景动作示例帧和背景非动作帧。这些方法首先使用一个分类器来获得时间点类激活序列(CAS)，然后使用top-k机制来聚合视频级别的分类分数。动作类标签，是一个更合理的选择，吸引了大量的关注。与动作示例的精确时间边界标注相比，视频级动作类别标注更易于收集，有利于避免人为标注者引入的定位偏差。

　　从上面的讨论可以看出，这两种方法都旨在学习有效的分类函数，以便从一袋袋的动作示例和非动作帧中识别动作示例。然而，弱监督方法和有监督方法之间仍然存在巨大的性能差距。我们认为，原因可能在于，除了有区别的前景动作示例和静态非动作背景帧之外，未经修剪的视频还包含许多语义模糊的动作背景帧。如图1所示，基于简单的前景背景分离CAS来区分动作示例和动作上下文是一个挑战，因为将这些上下文帧直接分配给背景类是没有意义的，因为它们与动作相关，并且与其他动作类别的上下文不共享相同的语义信息。

　　为了实现视频监控下的动作上下文抑制，本文提出了一种动作上下文建模网络(ACM-Net)。具体来说，我们首先引入一个分类分支来获得初始类激活序列(CAS)。但正如我们前面提到的，这个初始CAS不能抑制模糊的动作上下文帧，因为它们在语义上是相关的。为了解决这个问题，我们提出了一个三分支class-agnostic注意力模块，分别区分动作示例，动作上下文和非动作背景。然后基于这三个分支注意力值，我们构建了新的三分支类激活序列，即CAS_𝑖𝑛𝑠,CAS_𝑐𝑜𝑛, CAS_𝑏𝑎k, 它分别表示加权动作示例CAS，动作上下文CAS和背景CAS的注意力值。然后，我们应用多示例学习机制来计算视频级分类分数，以实现动作示例，动作上下文和非动作背景之间的分离。详细的框架如图2所示。为了验证我们的ACM网络的有效性，我们在THUMOS-14[24]和ActivityNet-1.3[25]数据集上进行了大量实验。结果表明，我们的ACM网络可以成功地实现动作示例和动作上下文的分离，并在这两个基准上实现新的最先进性能。

　　图1。除了独特的动作示例和非动作背景帧外，还有许多语义上不明确的动作上下文帧。传统的弱监督时间定位方法主要将前景-背景注意力机制应用于分离动作示例帧和非动作帧(非动作背景和语义模糊的动作上下文帧)。然而，这些方法不能很好地抑制这些上下文帧，因为它们在语义上与特定的动作示例相关，而这对于直接将这些帧分配给背景类是没有意义的。为了解决这个问题，我们提出了一个三个分支的注意力模块来测量每个时间点是动作示例，动作上下文或非动作背景的可能性。基于所得到的注意力值，我们分别构造了动作示例，上下文和非动作背景的三个分支的类激活序列。正如我们在上图中所看到的，这种机制对我们抑制那些语义上没有歧义的上下文帧非常有益。

　　主要贡献总结为三个方面：

　　•与之前将视频帧仅划分为前景帧和背景帧的方法不同，我们认为存在一些语义模糊的动作上下文帧。本文研究了动作上下文建模对弱监督时间动作定位的影响，提出了一种动作上下文建模网络(ACM-Net)来实现动作上下文和动作示例的分离。

　　•提出的ACM网络集成了一个class-agnostic的三分支注意力模块，以同时测量包含动作示例，动作上下文和非动作背景帧的每个时间点的可能性。基于获得的注意力值，我们构建了三个分支类激活序列，以实现动作示例，动作上下文和非动作背景的区分。

　　•我们在THUMOS-14和ActivityNet-1.3数据集上进行了大量实验。定性可视化结果证明了我们的ACM网络在区分模糊动作示例和动作示例方面的有效性。定量结果表明，我们的ACM网络优于当前最先进的方法，甚至可以实现与最近完全监督方法相当的性能。

二.相关工作

A.动作识别

　　作为视频理解的基本任务之一，旨在识别修剪视频中动作的动作识别已经得到了广泛的研究。早期的方法[26]，[27]主要集中在设计有效的手工描述，将时空特征结合起来。近年来，随着深度学习的发展，大量的网络被提出。这些方法主要基于图像级骨干网络[28]，[29]，[30]构建。早期的方法[31]，[32]，[33]直接将这些图像主干网络应用于RGB和光流图像，以建模时空信息。为了进一步提高识别性能，研究人员通过扩展时间维度将二维卷积运算扩展到三维，基于CNN的三维模型[34]，[35]，[36]，[37]，[38](包括二维空间卷积加一维时间卷积)成为主流方法。然而，尽管这些方法在经过修剪的视频片段上取得了显著的性能，但在实际应用中，长时间未修剪的视频更为常见，这使得这些方法无法实现精确的语义信息建模，限制了实际应用。

B.完全监督的时间动作定位

　　与动作识别不同，时间动作定位任务只关注经过修剪的视频片段来识别动作类别，其目标不仅是对动作示例进行分类，而且还定位长时间未修剪视频中动作示例的开始和结束时间边界。在完全监督下的时间动作定位需要在训练期间手动标注视频中每个动作示例的时间边界和类别。受二维目标检测的启发，许多方法[39]，[40]，[41]，[7]，[8]，[42]，[9]，[43]，[10]采用了两阶段范式，即建议生成和分类。给定完整的动作示例注释，两阶段方法通常在提议生成阶段通过引入二元分类器过滤掉非动作提议，然后引入时态特征建模来实现动作提议的分类和边界细化。目前，有两种主要的提案生成方法，即自顶向下框架[39]，[40]，[41]，[42]，[43]和自下而上框架[7]，[8]，[9]，[10]。前一种方法通常使用预定义的规则分布段生成建议，例如基于滑动窗口的方法，这种方法不灵活，通常会导致大量的误报建议。为了解决上述问题，后一种方法训练检测器搜索特定的动作点，例如动作边界或中心点，然后结合这些点生成动作建议。然而，由于所有方法在提案生成和分类阶段都需要动作示例标签，因此它们不可避免地会导致高昂的注释成本，并且无法在现实中广泛应用。

C.弱监督的时间动作定位

　　为了降低昂贵的标注成本，提出了弱监督时间动作定位方法。与需要对每个动作示例进行精确标注的监督时间动作定位方法相比，在训练过程中，弱监督时间动作定位方法只需要视频级别的动作类别标签。现有的弱监督时间动作定位方法可分为两个分支。受弱监督图像语义分割任务[16]，[17]，[18]的启发，第一个帧方法[11]，[12]，[13]，[14]，[15]将该任务描述为一个动作识别问题，并引入前景-背景分离注意力分支来构造视频级特征，然后应用动作分类器来识别视频。后一种帧方法[19]，[20]，[21]，[22]将这个问题描述为一个多示例学习任务[23]，并将整个未经修剪的视频视为一个包含positive和negative示例的包。他们首先获得帧级动作识别分数，即类激活序列CAS，然后引入top-k机制来构建视频级分类分数。然而，尽管这些方法已经取得了显著的性能，但在完全监督的方法之间仍然存在性能差距，我们将其归因于除了独特的动作示例和非动作背景帧之外，还有大量模糊的动作背景帧。仅基于一种前景-背景分离机制来抑制这些帧是一个挑战，因为它们在语义上与特定动作相关。为了解决这个问题，我们引入了一个动作上下文建模网络，即ACM网络，它集成了一个三分支注意力模块来测量每个时间点包含动作上下文的可能性。然后根据获得的注意力值构建三个分支类激活序列CAS，实现动作示例，上下文和非动作背景帧的分离。

三.方法

　　在这一部分中，我们首先定义了弱监督时间动作定位(W-TAL)的公式，然后详细介绍了我们的动作上下文建模网络(ACM网络)，然后介绍了训练和推理的细节。我们的ACM网络的总体架构如图2所示。

A.问题表述

　　假设我们得到一个未修剪的视频𝑉，它包含多个动作示例{𝜓_𝑖=(𝑡_𝑖^𝑠，𝑡_𝑖^𝑒，𝑐_𝑖)}^𝑁_𝜓_𝑖=1，，其中𝑁_𝜓是动作示例的数量，𝑡_𝑖^𝑠和𝑡_𝑖^𝑒表示动作示例𝜓_𝑖的开始和结束时间，𝑐_𝑖∈R^𝐶表示类别。时间动作定位的目标是检测所有动作示例，其中表示动作示例的置信度得分。

　　与完全监督的时间动作定位任务不同，在训练过程中，动作示例标注是可用的。对于W-TAL任务，我们只能使用one-hot视频级类别标签𝑦={0,1}∈R^𝐶+1，其中𝐶是动作类的数量，𝐶+1表示非动作背景类。

B.动作上下文建模网络

　　1) 特征提取：按照最近的W-TAL方法[19]，[44]，[21]，[12]，对给定的未修剪视频𝑉, 我们首先根据预定义的采样率将其划分为非重叠片段，然后应用预先训练好的网络来提取片段级特征。由于不同视频的时间长度不同，在训练过程中，我们使用插值操作来保持所有训练视频具有相同的时间维度𝑇, 即对于每个视频，我们将视频片段保持为𝑆={𝑠(𝑡)}^𝑇_𝑡=0。至于片段𝑠(𝑡)的特征提取，我们利用空间流(RGB)和时间流(光流)分别对静态场景特征𝐹^𝑟𝑔𝑏(𝑡)∈R^𝐷和动作特征𝐹^{𝑓𝑙𝑜𝑤}(𝑡) ∈ R^𝐷进行编码，之后，我们连接静态场景特征𝐹^𝑟𝑔𝑏(𝑡)和动作特征𝐹^{𝑓𝑙𝑜𝑤}(𝑡)形成片段特征𝐹(𝑡) = [𝐹^𝑟𝑔𝑏(𝑡),𝐹^{𝑓𝑙𝑜𝑤}(𝑡)]∈R^2𝐷。然后，我们将所有片段特征叠加，形成视频预训练特征𝐹∈R^𝑇×2𝐷。

　　2) 特征嵌入：由于提取的特征𝐹没有为W-TAL任务从头开始训练，以便映射提取的视频特征𝐹到特定任务的特征空间，我们引入了一个特征嵌入模块。具体来说，我们使用一组卷积层和非线性激活函数来映射原始视频特征𝐹∈R^𝑇×2𝐷到对应特定任务的视频特征𝑋∈R^𝑇×2𝐷。形式上，我们可以将特征嵌入模块表示为：

　　其中𝜃_{𝑒𝑚𝑏𝑒𝑑}表示特征嵌入层的可训练卷积参数，ReLU是我们在该模块中应用的非线性激活函数。

　　图2。我们提出的ACM-Net框架由三部分组成，即预训练的特征提取，视频特征嵌入和由动作上下文建模引导的弱监督时间动作定位。首先应用预训练好的模型提取视频片段层次的时空特征，然后利用特征嵌入模块将预训练好的特征映射到特定任务的特征空间。因此，为了抑制模糊的动作上下文帧，我们提出了一个三分支注意力模块并将获得的注意力值乘以原始类激活序列CAS以获得相应的加权CAS分支，然后采用多示例学习机制在只有视频级标签监督的情况下学习和建模动作示例特征

　　3) 动作类激活建模：为了在未修剪的视频中基于嵌入视频特征𝑋定位动作示例𝑉, 我们首先应用一个片段级动作分类分支来获得类激活序列(CAS)。尽管这种CAS不能很好地抑制那些语义模糊的动作上下文，但它能够抑制动作相关和非动作相关的帧。我们将此CAS设置为动作示例的初始指示器。具体地说，我们采用MLP将嵌入特征投影到动作类类别空间。输出为Φ∈R^{𝑇×(𝐶+1)}，它表示每个动作类随着时间变化的分类logit。在形式上，我们可以将动作类激活分支表示如下：

　　其中𝜃_CAS表示动作类激活分支的可训练操作参数。

　　4) 动作上下文注意力建模：如图1所示，除了高区分度的动作示例帧和非动作背景帧外，还有许多模糊帧，例如与动作相关的模糊背景场景帧或不完整的模糊动作帧。为了简单起见，在本文中，我们将所有与动作相关的模糊上下文帧表示为动作上下文。

　　为了实现动作示例和上下文与初始CAS的分离，我们首先引入一个三分支片段级动作注意力模块来检测class-agnostic动作示例，语义模糊上下文和非动作背景帧。具体来说，我们使用一个卷积层和softmax函数来测量每个片段包含动作示例，动作上下文或非动作背景的可能性。三分支注意力模块的输出为𝐴={(𝑎𝑡𝑡_𝑖𝑛𝑠(𝑡)，𝑎𝑡𝑡_𝑐𝑜𝑛(𝑡)，𝑎𝑡𝑡_𝑏𝑎𝑘(𝑡))}^𝑇_𝑡=0∈R^𝑇×3，其中𝑎𝑡𝑡_{𝑖𝑛𝑠(}𝑡)，𝑎𝑡𝑡_𝑐𝑜𝑛(𝑡)，𝑎𝑡𝑡_𝑏𝑎𝑘(𝑡)分别表示片段𝑠(𝑡)分别是动作示例，动作上下文或背景场景的可能性。形式上，我们将三分支片段级动作注意力模块表示如下：

　　其中𝜃_𝑎𝑡𝑡表示三分支动作上下文注意力分支的可训练卷积层参数。

　　然后根据所得到的注意力值，为了区分动作示例，上下文和动作背景帧，我们分别构建了新的三分支类激活序列CAS_𝑖𝑛𝑠，CAS_𝑐𝑜𝑛和CAS_𝑏𝑎𝑘。为简单起见，我们将CAS_𝑖𝑛𝑠的表达式表示为：

　　其中，CAS_𝑖𝑛𝑠∈R^{𝑇×(𝐶+1)}仍然为每个片段提供类激活分数，但它可以抑制那些模糊的动作上下文片段激活分数，并且仍然对动作示例片段保持高值。类似地，对于CAS_𝑐𝑜𝑛，它可以忽略这些动作示例帧，而只关注与动作相关的上下文片段。对于CAS_𝑏𝑎𝑘，加权类激活序列也会更关注那些非动作的背景片段。

　　5)多示例学习：正如我们在第3-A节中介绍的，对于W-TAL任务，我们只能在训练期间访问视频级别的动作类标签。继最近的工作[19]，[20]，[21]，[22]之后，我们应用多示例学习(MIL)机制[23]来获得视频级别的分类分数。具体来说，在MIL中，有两个bag用于单独的样本，即阳性和阴性bag。positive包至少包含一个正示例，而negative包不包含positive示例。MIL的目标是，除了对bag进行分类外，还要区分每个示例是positive的还是negative的。

　　在这种情况下，我们考虑未修剪的视频。𝑉作为一包视频片段，每个片段示例由相应的类激活分数表示。为了衡量每个CAS的损失，我们将top-𝑘动作分类分数以及每个动作类别的所有视频片段，然后对它们进行平均，以构建视频级别的类激活分数。正式地

　　其中是包含类𝑐的𝑘片段动作类化分数的子集，而𝑘是一个与视频片段长度𝑇成比例的超参数，即𝑘=max（1，𝑇//𝑟），而𝑟是一个预定义的参数。

　　然后，我们对聚合的平均top-𝑘_𝑎𝑐𝑡分数应用一个softmax函数，以获得每个动作类的视频级动作概率：

　　其中是包含类𝑐的𝑘片段动作类化分数的子集，而𝑘是一个与视频片段长度𝑇成比例的超参数，即𝑘=max(1，𝑇//𝑟)，𝑟是一个预定义的参数。

　　正如我们在第3-B4节中所介绍的，为了分离动作示例，动作上下文和背景片段，我们基于初始CAS和三个分支的注意力值构建了三个新的类激活序列CAS_{𝑖𝑛𝑠，}CAS_𝑐𝑜𝑛，CAS_𝑏𝑎𝑘。因此，对于动作示例注意力加权CAS_𝑖𝑛𝑠，应用上述MIL机制，我们可以得到视频级动作概率分布曲线𝑝^𝑖𝑛𝑠_𝑐(𝑉)。同样，对于CAS_𝑐𝑜𝑛和CAS_𝑏𝑎𝑘，我们可以分别获得𝑝^𝑐𝑜𝑛_𝑐(𝑉)和𝑝^𝑏𝑎𝑘_𝑐(𝑉)。

　　与之前的工作[11]，[19]，[21]，[22]，[45]类似，我们应用预测的视频级动作概率分布𝑝_𝑐(𝑉)和ground-truth视频动作概率分布𝑦_𝑐(𝑉)之间的交叉熵损失函数来对视频中不同的动作类进行分类。具体来说，对于CAS_𝑖𝑛𝑠，我们可以将分类交叉熵损失表示为：

　　其中，𝑦^𝑖𝑛𝑠_𝑐是视频𝑉的第𝑐个类的归一化视频级标签。我们设置了视频级标签𝑦^𝑖𝑛𝑠=[𝑦(𝑛)=1，𝑦(𝐶+1)=0]，因为使用动作示例注意力加权，在CAS_𝑖𝑛𝑠中，非动作背景和模糊的动作上下文片段被抑制。用类似的方法，我们可以分别得到交叉熵损失L_𝑐𝑙𝑠^𝑐𝑜𝑛和L_𝑐𝑙𝑠^𝑏𝑎𝑘。注意力，我们设置了视频级标签𝑦^𝑐𝑜𝑛=[𝑦(𝑛)=1，𝑦(𝐶+1)=1]，𝑦^𝑏𝑎𝑘=[𝑦(𝑛)=0，𝑦(𝐶+1)=1]，因为使用注意力值加权，CAS_𝑐𝑜𝑛和CAS_𝑏𝑎𝑘更关注动作上下文和背景场景，而不是动作示例片段。

　　在我们获得了三个基于视频级标签的分类损失，L^𝑖𝑛𝑠_𝑐𝑙𝑠，L^𝑖𝑛𝑠_𝑐𝑜𝑛，L^𝑖𝑛𝑠_𝑏𝑎𝑘后，我们可以组成的总体分类损失L_𝑐𝑙𝑠为：

C.优化目标

　　除了常规的分类损失L_𝑐𝑙𝑠外，我们还应用了三个额外的损失来使网络获得更好的性能，1)注意力引导损失L_𝑔𝑢𝑖，它用于约束动作示例注意力加权CAS_𝑖𝑛𝑠与动作示例注意力相一致。2)动作特征分离损失L_{𝑓𝑒𝑎𝑡}，用于在特征范数空间中分离动作示例，动作上下文和背景片段特征。3)稀疏注意力损失L_𝑠𝑝𝑎约束动作示例和动作上下文分支更关注与动作相关的帧。总体损失函数表述如下：

　　其中，𝜆₁，𝜆₂和𝜆₃是用于平衡总体损失项的三个超参数。

　　1) 注意力引导损失：虽然我们引入了MIL学习机制来构建视频级分类损失，使网络对视频中包含的动作示例进行分类，但这种方式并不优化片段级的动作分类结果，不利于后续精确的动作时间定位。为了使动作分类分支在片段级区分动作示例片段和那些模糊的动作上下文帧，除了应用的视频级交叉熵分类损失L_𝑐𝑙𝑠外，我们还引入了注意力引导损失。我们将动作示例注意力序列𝑎𝑡𝑡_𝑖𝑛𝑠设置为每个视频片段的二进制指标，并使用它在视频片段水平上指导加权的CAS_𝑖𝑛𝑠抑制动作上下文和背景片段。具体来说，注意力引导损失L_𝑔𝑢𝑖为：

　　其中，𝑝^𝑖𝑛𝑠(𝑡)是对加权CAS_𝑖𝑛𝑠应用softmax函数的预测片段级动作概率分布，𝑝^ins_𝐶+1(𝑡)表示片段𝑠(𝑡)不包含动作示例的可能性，𝑎𝑡𝑡_𝑖𝑛𝑠(𝑡)是片段𝑠(𝑡)处的动作示例注意力分支值。通过最小化L𝑔𝑢𝑖，我们可以指导网络在片段级优化类激活序列。

　　2)动作特征分离损失：为了使嵌入式视频片段的特征与动作示例，动作上下文和背景特征更加容易区分，我们在特征范数空间引入了动作特征分离损失L𝑓𝑒𝑎𝑡。具体来说，L𝑓𝑒𝑎𝑡被定义为：

　　其中，||·||为特征范数函数，𝑚为预定义的特征范数分离阈值超参数。而𝑋_𝑖𝑛𝑠，𝑋_𝑐𝑜𝑛，𝑋_𝑏𝑎𝑘则是视频级的动作示例，动作上下文和背景特征，它们都是基于上述的top-𝑘机制构建的。为简单起见，我们提出的𝑋_𝑐𝑙𝑠公式如下：

　　其中，argsort是一个函数，返回按降序排序数组的索引，𝑘𝑖𝑛𝑠是一个预定义的超参数，与视频片段长度𝑇成比例，就像前面提到的𝑘。同样地，我们也可以分别获得视频级的动作上下文特征𝑋𝑐𝑜𝑛和背景特征𝑋𝑏𝑎𝑘。

　　3)稀疏注意力损失：在[11]，[19]，[45]之后，我们还引入了稀疏注意力损失𝐿_{𝑠𝑝𝑎𝑟𝑠𝑒}来约束网络优化过程，这是基于一个假设，即一个动作可以被视频中的关键片段的稀疏子集识别。在形式上，𝐿_{𝑠𝑝𝑎𝑟}被定义为：

D.时间动作定位

　　在推理过程中，给定测试视频，首先应用基于动作示例的动作概率分布𝑝^𝑖𝑛𝑠_𝑐(𝑉)，基于预定义的分类阈值对测试视频进行分类。然后将动作示例注意力加权分类序列CAS𝑖𝑛𝑠和动作示例注意力序列𝑎𝑡𝑡𝑖𝑛𝑠应用阈值策略对动作进行定位。设表示检测到的动作示例，与之前的工作[21]，[12]，[45]一样，我们应用[44]中提出的外-内-对比函数，得到每个检测到的动作示例置信度得分。具体地说，置信度得分被定义为：

　　其中𝛼是用于组合CAS𝑖𝑛𝑠的超参数系数，𝑎𝑡𝑡_𝑖𝑛𝑠，和是检测到的动作示例的时间边界，表示膨胀的对比区域，表示对应的动作示例类别。请注意力，为了增加建议池，我们在CAS_𝑖𝑛𝑠和𝑎𝑡𝑡_𝑖𝑛𝑠上应用多个阈值，然后我们执行非最大抑制(NMS)来删除重叠的动作示例建议。

四.实验

　　在本节中，我们首先介绍有关网络的数据集和实现细节，然后将我们的方法与最先进的方法进行比较。最后，我们应用一组消融研究来评估每个模块组件的有效性。

A.实验设置

　　1) 数据集：我们在两个大型时间动作定位数据集THUMOS14[24]和ActivityNet1.3 [25]上进行了大量实验.

　　THUMOS-14[24]，其中包含200个未经修剪的验证视频和213个未经修剪的测试视频，带有精确的时间动作边界注释，属于20个动作类别。平均而言，每个视频包含15.4个动作示例，超过70%的帧是模糊的动作上下文或非动作背景场景。此外，视频长度从几秒到一个多小时不等，这使得它非常具有挑战性，尤其是在缺乏监督的时间动作定位方面。在之前的工作之后，我们将验证视频应用于训练，并将测试视频应用于测试。

　　ActivityNet1.3[25]，其中包含10024个未经修剪的训练视频，4926个未经修剪的验证未经修剪的视频，以及5044个动作示例标签被保留的测试视频。此数据集中涉及的动作示例类类别为200。平均而言，每个视频包含1.6个动作示例，约36%的帧是模糊的动作上下文或非动作背景场景。为了进行公平的比较，与之前的工作一样，我们还利用训练视频进行训练，并在验证视频上报告实验结果。

　　2) 评估指标：我们使用在Union(tIoU)阈值上具有不同时间交并比的mAP来评估我们的弱监督时间动作定位性能，这表示为mAP@tIoU。具体来说，THUMOS-14的t-IoU阈值为[0.1：0.1：0.7]，ActivityNet的阈值为[0.5：0.05：0.95]。

　　3) 实施细节：对于特征提取，我们首先对每个视频以25 fps的速度采样RGB帧，然后应用TV-L1算法[52]生成光流帧。然后，我们将每个视频分成连续16帧的非重叠片段。此后，我们使用在Kinetics数据集[53]上进行预训练的I3D网络[35]，以获得视频特征𝐹. 请注意力，为了进行公平比较，我们不会对预先训练好的I3D模型引入任何其他功能微调操作。

　　对于THUMOS-14数据集上的训练过程，我们将训练视频批处理大小设置为16，并应用Adam优化器[54]，学习速率为10−4，权重衰减为5×10−4。我们设置了视频片段长度𝑇=750，以及动作示例分支𝑘_𝑖𝑛𝑠=𝑇//𝑟_𝑖𝑛𝑠的顶部𝑘号，动作上下文分支𝑘_𝑐𝑜𝑛=𝑇//𝑟_𝑐𝑜𝑛，动作背景分支𝑘_𝑏𝑎𝑘=𝑇//𝑟_𝑏𝑎𝑘。根据参数的微调，我们设置了𝑟_𝑖𝑛𝑠=8，𝑟_𝑐𝑜𝑛=𝑟_𝑏𝑎𝑘=3，𝜆₁=2×10⁻³，𝜆₂=5×10⁻⁵，𝜆₃=2×10⁻⁴，𝛼=0.对于动作示例提案的生成，我们使用步骤0.05将阈值从0.15设置为0.25，为了消除重叠提案，我们在t-IoU阈值为0.50时执行NMS。

　　对于ActivityNet1.3数据集上的训练过程，我们将训练视频批量大小设置为64，优化器[54]学习率设置为10−4和重量衰减0.001。考虑到大多数视频长度从几秒到几分钟不等，比THUMOS-14数据集短得多，我们设置了视频片段长度𝑇 = 75。根据参数微调，我们设置了𝑟_𝑖𝑛𝑠=2，𝑟_𝑐𝑜𝑛=𝑟_𝑏𝑎𝑘=10，𝜆₁=5×10−3，𝜆₂=1×10−5，𝜆₃=0，𝛼=0.5.对于动作示例提案的生成，我们使用步骤0.005将阈值设置为0.01到0.02，为了消除重叠建议，我们应用t-IoU阈值为0.90的NMS。

　　表1在thumos-14数据集上的时间动作定位性能比较。平均表示平均mAP从iou0.1到0.7，增量为0.1。最近的工作在完全监督和弱监督的设置被报告。我们的方法优于最先进的弱监督方法，当该方法的≤为0.5时，甚至可以达到与最近的完全监督方法相当的性能。即使sf-net[46]引入了对动作示例的更强的监督，我们仍然可以获得更好的性能。∗表示不包含后处理的报告性能。

　　表二在ActivityNet络-1.3数据集上的时间动作定位性能比较。平均MAP从iou为0.50到0.95，增量为0.05。我们的方法优于最先进的弱监督方法，特别是在t-iou=为0.5时，我们可以获得3%以上的改进。

　　所有实验均在RTX-3090平台上使用PyTorch-1.7[55]进行评估。

B.与最先进方法的比较

　　我们将我们提出的网络与现有的完全监督和弱监督时间动作定位方法进行了比较。

　　表1将我们的方法与当前在THUMOS-14数据集上的基于完全和弱监督的时间动作定位方法进行了比较。如图所示，通过引入动作上下文建模机制，我们的方法可以在弱视频标签约束下实现新的最先进的性能。即使与引入了更强监督的SF-Net[46]相比(对于每个动作示例，SFNet引入了一个时间点注释)，我们仍然可以获得更好的性能。此外，可以观察到，当t-IoU≤0.5时，我们的方法甚至可以达到与最近完全监督的方法相当的性能，即使我们在训练期间没有获得更详细和具体的动作示例注释。

　　表II给出了ActivityNet-1.3数据集上的性能比较。如图所示，在弱监督假设下，我们的方法也可以实现新的最新性能。然而，性能改善不如THUMOS-14数据集那么显著。这可能是因为ActivityNet-1.3中动作示例的基本事实结果不如THUMOS-14数据集精确，我们发现ActivityNet-1.3中的动作示例注释更容易包含一些模糊的动作上下文帧。

C.消融研究和分析

　　1) 动作上下文建模的有效性：为了证明我们提出的用于弱监督时间动作定位的动作上下文分支建模机制的有效性，我们在THUMOS-14数据集上进行了大量的消融实验。结果总结在表3中。

　　表三我们提出的thumos在14数据集上的作用上下文建模机制有效性的消融研究。平均g表示从t-iou0.1到0.7的平均MAP，增量为0.1。

　　表4消融研究显示了我们提出的在ActivityNet-1.3数据集上的作用上下文建模机制的有效性。平均表示从t-iou为0.50到0.95的平均mAP，增量为0.05。

　　为简单起见，我们将第三节-C节中引入的附加损失约束表示为𝐿_𝑎𝑑𝑑。

　　如表中所示，与没有引入动作上下文建模机制的基线方法相比(Exp1,2)，我们提出的动作上下文建模机制对时间动作定位非常有利(Exp3,4)。具体来说，如果没有花哨的功能，我们可以实现超过14%和6%的平均性能增益。我们将这种巨大的性能增益归因于强迫网络将所有动作示例，上下文和非动作背景片段分组为一个类别是不合理的，因为它们不共享任何共同的语义。值得注意力的是，与引入的L𝑐𝑙𝑠𝑏𝑎𝑘实验4相比，实验3仅基于L𝑖𝑛𝑠𝑐𝑙𝑠和L𝑐𝑙𝑠𝑐𝑜𝑛𝑏𝑎𝑘约束可以获得更好的性能。这可能是由于网络不能在没有引入额外的约束条件𝐿𝑎𝑑𝑑的情况下，更清楚地区分动作示例，上下文和背景片段，其有效性将在下一小节中进行评估

　　此外，我们可以观察到，在仅基于L𝑖𝑛𝑠𝑐𝑙𝑠和L𝑐𝑙𝑠𝑐𝑜𝑛约束的THUMOS-14数据集上，无需引入任何其他技巧或损失，我们可以获得与当前SOTA方法相当的性能，这进一步证明了我们的动作上下文建模机制的有效性。

　　我们还可以在ActivityNet13数据集上得出相同的结论，即只有引入动作上下文建模机制，我们才能实现当前的SOTA性能。表4中给出了ActivityNet-1.3上消融研究的结果。

　　2) 额外损失的有效性：在之前的工作之后，我们引入了额外的约束条件L_𝑎𝑑𝑑进一步提高时间动作检测性能。为了分析每个附加损失约束对最终时间动作检测性能的影响，我们在THUMOS-14数据集上进行了广泛的消融实验。结果整理在表5中。

　　表5评估了在thumos-14数据集上的额外损失函数的有效性。

　　如表所示，L𝑔𝑢𝑖和L𝑓𝑒𝑎𝑡都有助提高时间动作定位性能。对于L𝑔𝑢𝑖，我们可以获得1.7%的平均mAP性能增益，因为这种约束可以促进网络在片段级别上最小化CAS𝑖𝑛𝑠和𝑎𝑡𝑡𝑖𝑛𝑠之间的差异。至于L𝑓𝑒𝑎𝑡，因为它对分离动作示例，动作上下文和非动作背景片段是有益的，所以与基线实验相比，我们可以平均提高1.1%。然而，我们发现L𝑠𝑝𝑎不能独立地提高性能，这可能是因为直接最小化时间注意力值可能会导致网络更多地关注那些显著的动作片段，而忽略那些区别性较差的动作片段。当我们将L𝑔𝑢𝑖，L𝑓𝑒𝑎𝑡和L𝑠𝑝𝑎组合为L𝑎𝑑𝑑时，我们可以得到3.6%的性能改进，并将我们的方法提升到一种新的最先进的技术。

　　3)视频片段数𝑇的分析：正如我们前面提到的，自然视频总是在时间长度上发生变化，然而，在时间动作定位问题的弱监督公式下，我们只能在训练过程中访问视频级标签。因此，为了实现所提网络的并行优化，我们采用了基于线性插值的采样策略，使所有训练视频具有相同的时间维数𝑇。为了分析视频采样片段数𝑇对最终性能的影响，我们进行了一系列实验，结果如表6所示。

　　从表中的结果中，我们可以得出结论，𝑇与检测性能的增长不是线性关系。当𝑇很小时，增加𝑇会导致显著的性能提高(例如，我们可以从𝑇=250到𝑇=500获得5.1%的平均mAP提升)，但当𝑇超过某个值(THUMOS-14数据集的𝑇=750)时，检测性能再次开始下降。这可能的原因是，当𝑇很小时，对于大多数视频，我们无法实现完全采样，而当𝑇超过一定值时，会导致过采样，导致在训练过程中引入更模糊的上下文片段。

D.定性结果

　　为了进一步证明和举例说明我们的动作上下文建模机制的有效性，我们在图3中展示了一些定性的结果。在此图中，CAS表示最初从分类分支获得的类激活序列。𝑎𝑡𝑡_𝑖𝑛𝑠 表示应用于抑制那些模糊动作上下文帧的动作示例注意力值。而CAS_𝑖𝑛𝑠表示由动作示例注意力值计算的𝑎𝑡𝑡_𝑖𝑛𝑠加权类激活序列CAS。

　　图3。在THUMOS-14数据集上进行定性结果可视化。从以上定性结果中，我们可以得出结论，我们提出的动作上下文建模机制非常有利于抑制模糊的动作上下文帧，并帮助我们获得更精确的时间动作定位结果。然而，我们可以注意力到，这种机制并不完美，有时可能会抑制真实的动作示例帧。可能的原因是，这些动作示例帧可能与动作上下文帧没有区别，而是模棱两可。

　　表六评估了视频片段样本数𝑇对thumos-14数据集的影响。

　　从这些定性的可视化结果中，我们可以得出结论，我们提出的动作上下文建模机制在抑制模糊的动作上下文帧，帮助过滤那些误报错误以及获得更准确的时间动作定位结果方面是非常有利的。然而，在弱监督的问题定义下，这种机制并不完美，因为我们在训练过程中无法获得准确的动作注释信息，因此该机制有时可能会抑制和过滤掉一些不太重要和有区别的动作帧。

五.结论

　　在本文中，我们提出了一个称为ACM网的动作上下文建模网络，以实现动作示例，语义模糊的动作上下文和非动作背景帧之间的分离。提出的ACM网络集成了一个三分支注意力模块，用于测量每个时间点包含示例，上下文或背景帧的可能性。基于三个分支注意力值，引入三个分支类激活序列(CAS)来表示每个时间点的动作示例，动作上下文或背景激活分数。我们在两个流行的基准数据集THUMOS-14和ActivityNet-1.3上进行了大量实验，以证明我们的ACM网络的有效性。结果表明，我们的ACM网络的性能优于目前弱监督的最先进的方法，并优于那些有较强监督的方法，甚至可以达到与完全监督的方法相当的性能。对于未来的工作，我们相信上下文建模将是各种弱监督学习任务的一个有希望的方向，并在其他相关任务中探索这种机制。

posted @ 2022-05-16 20:24 Lhiker 阅读(529) 评论(0) 收藏举报

刷新页面返回顶部

自由方向