Deep Motion Prior for Weakly-Supervised Temporal Action Localization
摘要
弱监督时序动作定位的目标是在只有视频级标签的未修剪视频中定位动作。目前,大多数最先进的WSTAL方法遵循多示例学习(MIL)流程:首先生成片段级预测,然后聚合到视频级预测。然而,我们认为现有的方法忽略了两个重要的缺点:1)运动信息的使用不足,2)普遍存在的交叉熵训练损失的不兼容性。在本文中,我们分析了光流特征背后的运动线索是互补信息。受此启发,我们提出建立一个上下文相关的运动先验,称为motionness。具体而言,引入运动图来基于局部运动载体(例如光流)对运动进行建模。此外,为了突出信息量更大的视频片段,我们提出了一种运动引导损失来调节基于运动分数的网络训练。广泛的消融实验证实,motionness能有效地模拟感兴趣的动作,而运动引导损失可以产生更准确的结果。此外,我们的运动引导损失是一种即插即用损失函数,适用于现有的WSTAL方法。在不丧失通用性的情况下,基于标准MIL流程,我们的方法在三个具有挑战性的基准上实现了最新的性能,包括THUMOS'14、ActivityNet v1.2和v1.3.我们的项目可从DMP Net获得。
一、导言
时序动作定位(TAL)旨在识别未修剪视频中发生的所有动作示例的开始和结束时间。对于智能视频摘要[8]、监控分析[24]和视频检索[3]等众多视频理解应用来说,它是不可或缺的构建块。然而,所需的帧级标记是主观的、劳动密集型的,并且容易出错。
因此,弱监督的时间动作定位(WSTAL)受到了广泛关注,视频级别的标签成本要便宜得多。例如,如图1所示,考虑到未经修剪的视频和分类台球,WSTAL模型旨在检测所有台球动作示例的时间位置。不幸的是,没有免费午餐——仅在视频监督下进行帧定位和分类是具有挑战性的,特别是对于复杂的视觉场景。
图1:MIL基线使用XE损失(W/La)和使用提出的运动引导损失(W/Lg)的TCAS分布(台球类)之间的比较。通过阈值化获得预测结果,并通过相应的遮罩进行可视化。GT是台球类别的ground-truth动作示例的缩写。我们选择了三个具有代表性的帧,并在水平和垂直方向上显示了它们的光流图。
大多数最先进的WSTAL方法[6,12,13,15,26]的实际范例是首先从预先训练的视觉模型(例如C3D[23]和I3D[2])中预提取视频RGB和光流特征,然后跟随多示例学习(MIL)原则。具体地说,随着时间的推移,将执行片段分类以生成时间类激活序列(TCAS),然后将其聚合以预测视频级别的分类分数。整个过程通过标准交叉熵(XE)损失进行优化。在我们的论文中,我们称这个框架为基线。
尽管在这个方向上已经取得了很大的进展,但今天的WSTAL方法仍然存在两个主要缺点:(i)运动信息的使用不足:我们认为光流模式背后的运动线索在经验上更具信息性(参见第IV-D节),不应与RGB模式同等对待。然而,现有的大多数方法都未能广泛探索光流背后的运动信息。具体而言,目前的WSTAL方法通常采用early fusion或late fusion的方式。对于early fusion方法[10,15,19],提取的RGB和光流特征在输入到网络之前被连接起来。对于late fusion方法[13,33],它们独立地对每个模态进行预测,然后通过加权和或其他后处理步骤对结果进行融合。然而,这种简单的连接或融合方式是间接的和不充分的,导致了许多错误的检测结果。例如,如图1所示,帧#1与帧#2具有相似的外观,但它实际上是一个背景帧,因为它只是一个带有解释性说明的静止帧。在这种情况下,运动信息可以帮助我们轻松区分它们,因为它们的光流特征具有低响应,这意味着该帧不太可能是动作。(ii)XE损失的不兼容性:XE损失旨在衡量分类模型的性能,与我们的定位任务本质上是不兼容的。具体地说,XE损失鼓励了区分度高的视频clip,这些视频clip往往是零碎的,没有涵盖整个动作。例如,帧#3在ground-truth区间内,但它被错误分类,并导致不完整的定位结果。同样,让我们关注运动信息。从光流图像中,我们发现第3帧和第2帧之间有相似的模式。因此,在损失函数中引入明确的运动信息可以产生更完整和准确的预测。
基于此,我们提出了深度运动先验网络(DMP-Net)通过学习有效的上下文相关运动表示(本文中称为motionness),充分利用光流模式。我们的运动具有全局感知,关注感兴趣的动作,而不考虑背景和不相关的动作。在此基础上,我们提出了一种运动引导损失,这是一种即插即用损失函数,在弱监督环境下,它可能是传统XE损失的替代方案。
对于运动建模,我们引入了一个运动图来放大每个时间片段的感受野,因为光流是两个连续帧之间计算的局部运动表示。具体来说,本文从位置关系和语义关系两个角度研究了时间关系。为了说明这一点,让我们重温图1中的第#3帧。1) 位置关系:帧#3被错误分类,而其周围的帧都被正确预测。这些相邻的片段将提供上下文信息,这有利于正确的分类。2) 语义关系:第#2帧与第#3帧距离较远,但它们具有相似的运动模式(类似的台球击球过程)。因此,它为第#3帧提供了指示性提示,并提供了更全面的信息。基于这两种关系,我们构造了一个运动图,它既鼓励相邻的位置上下文,也鼓励遥远的语义关联。
对于运动引导损失,我们的目标是使用建模的运动来调节网络训练。我们从一个直观的想法开始,即一个时间戳的motionness越高,它成为感兴趣的动作的可能性就越大。让我们回顾一下基线中的视频级别分类聚合过程。按照[6,14,15,34]中的top-k均值策略,对于每个类别,具有最大TCAS值的k个项的均值被计算为视频级别分类分数。在本文中,我们进一步评估了这些选定项的运动特性。具体来说,我们取motionness序列中相应项的值,并将这些值纳入损失计算。(在这里,我们稍微滥用了“frame”,我们将它作为视频片段)。这样,TCAS和motionness评分都较高的项会突出显示,而motionness评分较低的项则会降低权重。实验结果表明,这种直观的设计会带来更好的结果。
总之,我们在本文中做出了三点贡献:
•我们认为,依赖于上下文的深度运动先验对于精确的动作定位至关重要,我们通过应用运动图来利用时间节点之间的关系来获得它。
•开发了一种高效的运动引导损失,以通知整个流程更多的运动线索,这些线索可以无缝插入任何现有的WSTAL模型。
•在三个具有挑战性的数据集上进行的大量实验证明了我们提出的DMP网络的有效性。
二、相关工作
弱监督的时间动作定位。WSTAL只需要视频级别的标签,并且节省了大量的帧级别标签工作。最开始的工作UntrimmedNets[26]将这个问题描述为一个多示例学习(MIL)框架,通过评估每个Clip对视频分类的贡献。后来,STPN[13]将这种注意机制应用于特征级别,并提出了一个稀疏性约束。为了规范特征表示,WTALC[15]引入了深度度量学习作为补充。从本质上讲,注意力MIL方法往往会产生不完整的定位结果。为了解决这个问题,有几项研究[9,22]试图通过随机隐藏patches或抑制主要影响区域来扩展区分区域。为了模拟完整的动作,Liu等人[9]利用生成的hard negative数据开发了一种并行多分支分类体系结构。为了明确区分背景和前景,提出了几项背景建模工作[6,14,18],以缓解行动背景的混乱。
图2:所提出的DMP-Net的示意图,它由两个分支组成:产生类特定概率(TCAS)的(a)基本分支和(b)引导分支,输出未知类的深度运动先验。在基本分支中,对于TCAS的每个通道(类别),选择具有最大值(标记为红色节点)的前k项来聚合视频级的分类结果。在引导分支中,我们也选择了运动性序列中相应的项,并提供给我们的运动引导损失Lg。为了清晰起见,我们只显示了第一个通道的运动度选择,其余的通道都是相似的。
通常,大多数WSTAL方法都基于提取的RGB和光流,有两种可能的融合方式。early fusion方法[6,10,15,19]将两种模式连接在一起,然后再送入网络,而late fusion方法[13,14]则计算各自输出的加权和。两种融合策略中的任何一种都平等或独立地处理RGB和光流。然而,光流模式背后的运动线索在经验上更具信息性。先前出版物[33]和我们的实验(第IV-D节)中的实验结果也表明,当使用单模态时,基于光流的方法优于基于RGB的方法。因此,我们重新利用光流对依赖于上下文的运动进行建模,并用它来指导网络训练。图卷积网络。文献[5]首次提出了非欧几里德结构的GCN。最近,GCNs已成功应用于多个计算机视觉任务,包括视频理解[29]、目标检测[27]和点云分割[25]。PGCN[32]使用GCN探索提案之间的关系,以完善边界回归。G-TAD[28]将多级视频上下文整合到特征表示中,并将动作检测作为子图定位问题。Action Graph[17]还构建了一个图来模拟代码段级别的关系。然而,我们的方法在以下两个方面与[17]不同。首先,在[17]中,图形卷积被应用于RGB和光流特征的串联,而我们的DMP网络专注于有效的运动建模。其次,[17]设计了一个稠密图,即每个节点对都是连通的。在我们的实验中,我们发现这种完全连接的方式受到视频中特征缓慢[35]的影响,使得学习的权重集中在周围的片段上。相比之下,我们的带有位置边和语义边的稀疏图有效地捕获了上下文和长期语义信息。
三、方法
在本节中,我们首先在A部分中提出了问题的公式。在B部分中提出了DMP-Net的一般方案。然后在C部分和D部分分别详细介绍了基础分支和引导分支的建模。在此基础上,我们在E部分引入了一个运动引导损失。最后,在F部分给出了推理过程。
A.符号和准备工作
在训练阶段,假设我们得到一组N个未修剪的视频,{Vn}Nn=1及其视频级标签{yn}Nn=1,其中yn∈RC是一个multi-hot向量,C是动作类别的数量。按照常见的流程[6,13,14],我们用固定长度的不重叠片段来表示每个视频,即Vn={Sn,t}Tt=1,其中T表示采样片段的数量。然后使用预先训练的特征提取器(如I3D[2])分别从采样的RGB片段和光流片段中提取外观特征XnApr={at}Tt=1和运动特征XnMot={mt}Tt=1。这里,在at∈Rd,mt∈Rd,d是每个代码片段的特征维度。
B.DMP网络概述
我们试图强调光流模式相对于RGB模式的重要性,并解决交叉熵损失的不兼容问题。因此,我们提出了一种通用的运动引导损失,它可以以即插即用的方式取代现有WSTAL方法中的传统交叉熵损失。
为了证明所提出的损失的有效性,我们设计了一个有效的WSTAL模型,称为DMP网络,它由两个分支组成:基本分支和引导分支。整个网络通过我们的运动损失进行了优化。DMP网络的流程如图2所示。
在不丧失通用性的情况下,我们将标准的多示例学习流程作为基本分支。具体而言,RGB和光流特征被连接起来,以生成片段级分类结果,即时间类激活序列(TCAS)[15]。对于引导分支,我们寻求基于光流特征构建上下文相关的运动表示(称为运动)。为此,引入了一个图卷积模块来建模层次关系。我们没有直接构造一个稠密的完全连通图,而是仔细设计了一个具有稀疏边连接的计算效率高的图。这里我们采用两种类型的关系,即位置边来利用邻域相关性和语义边来捕获语义相关但不相连的片段。最后,利用生成的运动信息来指导我们的运动引导损失中的网络训练。
C.基本分支
基本分支如图2top所示。首先,我们在XnApr和XnMot的连接上应用嵌入函数fembed来获得特征XnE∈ RT×2d。fembed通过时间卷积和ReLU激活函数实现。在给定嵌入特征XnE的情况下,我们应用一个分类器fcls来获得片段级的类分数,即时序类激活序列。

fcls其中包含时间卷积,然后是ReLU激活,φcls是可学习的参数。获得的An∈RT×C表示在每个时间片段发生的动作分类结果。
D.引导分支
在这个分支中,我们的目标是建立一个称为motionness的上下文相关的运动模型。传统上,光流特征被广泛用于提供时间运动信息[17,21,33]。然而,光流有一个固有的缺点,即它只能反映局部运动信息,因为它是在两个连续帧之间计算的。为了获得有效的运动先验信息,我们构建了一个运动图来模拟片段之间的关系,从而消除干扰运动信息(例如背景或无关运动)。接下来,我们将依次介绍我们的运动图构建过程和使用GCNs的运动建模。
运动图构造。对于图的构造,一种可能的方法是构建一个密集的完全连通图,即在整个视频中,每个片段都与其他片段相连。这种直观的方式有两个缺点:(i)密集连接方式成本高昂,边的数量是片段数量的二次方;(ii)由于短期视频变化缓慢,因此slowness优先[35]导致相邻片段之间存在较大的特征相似性。因此,由于相似的特征表示,密集图中的特征更新主要由周围的片段控制,而遥远的片段则被忽略。
为了缓解这种情况,我们构建了一个具有稀疏边缘连接的运动图,并鼓励位置相邻的片段和语义相关但不相邻的片段。形式上,设G={M,E}是具有节点集M和边集E的节点图。此外,与G相关联的邻接矩阵表示为G∈RT×T。对于图G,每个节点(即mi∈ Rd)被初始化为相应片段的光流特征。在这里,我们通过利用位置意识和语义相似性设计了两种边构造方法,即:EposUEsmt
位置边Epos 位置接近的片段具有自然的时间连接,它们之间传递的消息将促进特征表示。如图3所示,s1,s2和s3是高尔夫挥杆动作的不同阶段。从而s1和s2为建模s3提供了丰富的上下文信息。通常,如果片段mi和mj的时间距离低于一个预设阈值,我们会在它们之间建立一条边:

式中,eij:=<mi,mj>是连接mi和mj的边;ti和tj分别是片段mi和mj的时间指数。θpos是一个特定的阈值。通过这种方式,每个片段都会使用其上下文信息进行增强,这显然有助于细化特征表示并提高定位精度。

图3:运动图的示意图。我们演示了来自时间节点s2的边连接。请注意,我们显示的是RGB图像,而实际的图卷积是在光流模式上进行的。
语义边 除了时间上下文信息之外,语义关联对每个片段都是有益的,即使它们在时间上是分散的。请注意,未修剪的视频通常包含多个动作片段。因此,找到属于相同或相似类别的动作示例将增强运动模式的区分性。如图3所示,s4和s5都是跨越不同场景和人员的高尔夫挥杆动作。尽管时间距离很长,但它们共享相似的语义信息,这种连接有利于运动建模。因此,我们为远程关联建模设置了语义边缘,这有助于在一个视频中为相同或类似的动作示例建立高层和全局感知的关系。特别是,我们使用片段节点之间的余弦相似性来查找语义相关的节点,即

其中γ是相似度阈值。W1,W2∈Rd×d是可学习参数。
运动建模。给定构造的图,我们在构造的运动图上应用k层GCN进行推理。GCN有助于图形的消息传递,并更新每个片段节点的运动特征。具体来说,对于第k层:

其中Wk∈Rdk×dk是可学习参数矩阵;Xk∈RT×dk是k层上所有片段的隐藏运动特征,X0={mi}Ti=1∈RT ×d是输入运动特征。相邻矩阵G的计算公式如下:

请注意,按照常见做法[28,32],使用快捷路径保留输入特征,最终输出如下:

其中||表示连接操作。图卷积允许网络根据图定义的节点边计算节点的响应,从而扩大感受野并促进相邻或远处片段之间的信息交换。
在获得更新后的运动特征Xk后,我们应用二值分类器fmot来获得运动状态。具体来说,分类器包含一个时间卷积,然后是ReLU激活函数。这可以表述如下:

其中φmot是可学习的参数。获得的Mn∈ RT代表每个时间片段的运动分数。
E.运动引导损失
在我们指定我们的运动引导损失之前,让我们回顾一下通常采用的视频级分类损失,这是一个传统的二进制交叉熵形式。
为了获得视频级的类分数,我们汇总了在等式(1)中计算的片段级类分数。按照[6,15,26]的方法,我们采用top-k均值策略:对于每个类c,我们采用具有最大的类特定TCAS值的
(r是选择比率)项,并计算它们的平均值作为an;c,即视频Vn的类c的视频级类得分。对应所选元素的索引集记为San;c。在获得所有C类的an;c之后,我们在an上沿类维度应用Softmax函数来得到视频级类的可能性pn∈RC,即pn=softmax(an)。然后以交叉熵的形式计算XE损失(La):

其中,
∈RC是标准化的ground-truth。
XE损失仅与TCAS序列相关,该序列基于运动和外观特征串联建模。在前面的讨论中,我们注意到运动信息提供了更多的提示,以便于定位。因此,通常采用的top-k均值策略是一种相当粗糙的聚集方式,因为它不考虑每个选定项的运动性得分。为了缓解这种情况,我们另外生成了视频级的运动度得分µn={µn;c}∈RC作为那些具有top-k actionness值的片段的平均motionness值:

其中,San;c是前面定义的TCAS序列中类别c的前k项的索引集。
直观地说,网络应该突出显示既被正确分类又具有高运动性分数的片段,即运动引导损失为:

其中,
与之前在等式 (8)中的定义相同.

图4:我们的运动引导损失的损失面。我们从具有ground-truth标签1的视频Vn选择一个动作类别c,pn;c表示预测概率,与等式中定义的相同 (8).µn;c表示所选类别c的视频级运动度得分。
我们一项一项地直观解释等式(10)。第一项旨在突出同时具有高pn;c和高运动性(µn;c)的片段,而第二项(−logµn;c2)作为一个正则化项,以防止运动性主导训练过程。为了清晰起见,我们在图4中进一步绘制了Lg的损失面。具体来说,我们随机为视频Vn选择一个动作类别c。给定网络和训练好的检查点,我们手动移动预测的概率pn;c和平均运动度得分µn;c,根据等式 (10)计算Lg值。如图4所示,我们的运动引导损失与预测的概率和视频水平的运动性得分都密切相关。具体地说,当pn;c和µn;c都很低时(图4中的c1)施加最重的损失惩罚。对于具有高pn;c但低µn;c的样本(图4中的c2),它们应该得到适度的损失惩罚,因为它们的确定性很低。高pn;c和µn;c(图4中c3)的样本受到最轻微的惩罚。
F.推理
在测试过程中,给定一个输入视频,我们首先生成它的动作分数,聚合top-k分数,并使用θc作为阈值,以获得视频级分类结果。然后对于预测的动作类,我们用阈值θa对相应的动作分数进行阈值来选择候选片段。最后,我们将连续片段分组作为动作建议,并使用NMS(非最大抑制)来删除重复片段。
四、 实验
在本节中,我们进行了大量实验,以证明我们的DMP网络的有效性。还对THUMOS'14测试装置进行了全面的消融实验,以提供对每个组件的更多了解。

表一:在THUMOS‘14数据集上与最先进的完全监督和弱监督TAL方法的性能比较。UNT和I3D分别是UntrimmedNet feature和I3D特征的缩写。
A.数据集
我们在三个流行且具有挑战性的WSTAL基准测试上评估了DMP-Net:THUMOS‘14、ActivityNet v1.2和ActivityNet v1.3。虽然在这些数据集中提供了帧级标签,但我们只使用视频级类别标签进行网络训练
THUMOS'14。 它是WSTAL广泛采用的基准,包括20个体育类别中未修剪的视频。训练、验证和测试集分别包含13320、1010和1574个视频。这是非常具有挑战性的,因为这个数据集中的每个视频可能包含多个动作实例,平均每个视频有1.12个类。按照[6,18]中的常见设置,我们使用验证集(200个视频)进行训练,并使用测试集(213个视频)进行测试。
ActivityNet[1]。它是WSTAL的一个大规模基准测试,它包含两个版本:ActivityNet v1.3和ActivityNet v1.2。ActivityNetv1.3包含200个类的19994个未修剪视频。训练、验证和测试分割除以2:1:1的比例。ActivityNetv1.2是ActivityNet v1.3的一个子集,它包括100个动作类别,包括4819个训练,2383个验证和2480个测试视频。每个视频平均有1.65个动作实例。按照常用的实践[19,26],我们在训练集上训练模型,并在验证集上对它们进行评估。
B.实施细节
评估指标。按照标准评估协议,我们报告了在不同的IoU阈值下的平均精度(mAP)值。对于THUMOS'14,IoU阈值设置为{0.1,0.2,…,0.9}。对于ActivityNet,阈值从{0.5,0.75,0.95}中选择,我们还报告了0.5和0.95之间的所有IoU阈值的平均图,步长为0.05。两个版本的评估都是使用官方代码计算的。
特征提取器。我们使用经过Kinetics预训练的I3D网络[2]作为我们的特征提取器。请注意,I3D功能提取器没有经过微调以进行公平比较。我们采用TVL1[16]算法提前提取光流。视频片段每16帧采样一次,每个提取片段的特征维数为1024。
训练细节。THUMOS‘14的采样数T分别为750,激活网络设置为50。所有超参数均通过网格搜索确定:GCN层数K=2,选择比r=8。对于这两个数据集,位置阈值θpos和相似度阈值γ分别设置为0.1和0.6。我们使用了Adam优化器,学习率为1e-4。我们总共训练了6k个时代,THUMOS‘14批为32,8k个批为128。
推理细节。我们将THUMOS‘14和激活网络的θc分别设置为0.2和0.1。对于提议生成,我们使用了多个阈值,THUMOS‘14设置θa为[0:0.25:0.025],θa设置为[0:0.15:0.015]。采用非最大抑制(NMS),IoU阈值为0.7。
C.与最先进方法的比较
我们将DMP网络与最先进的WSTAL方法在三个具有挑战性的数据集上进行比较:
THUMOS'14。我们将我们的DMP网络与THUMOS'14测试集上最先进的全监督和弱监督TAL方法进行了比较。如表一所示,

表二:在ActivityNetv1.2数据集上的比较结果。AVG列显示了在阈值0.5:0.05:0.95下的平均mAP。Unt和I3D分别是修剪网特征和I3D特征的缩写。

表三:在ActivityNetv1.3数据集上的比较结果。AVG列显示了在阈值0.5:0.05:0.95下的平均mAP。所有列出的方法都使用I3D特性。
在所有IoU阈值下,DMP-Net始终优于以前的弱监督方法,并且mAP@0.5达到34.2%。此外,DMP-Net甚至在监督较少的情况下超过了几种强大的完全监督方法(如S-CNN[20]和SSN[36])。
ActivityNet v1.2。ActivityNet v1.2上的比较结果。表二总结了2个验证集。在所有弱监督TAL方法中,我们的DMPNet实现了26.1%的平均mAP。此外,当与完全监督方法SSN[36]相比时,DMP网络的性能仍然具有竞争力,即它甚至在以下方面超过了SSN:mAP@IoU0.5(41.9%比41.3%)。
ActivityNet v1.3。我们在ActivityNet v1.3上进行了实验。3验证集和比较结果如表III所示。在这个更大版本的数据集上,我们的DMP网络也实现了具有竞争力的性能,平均mAP达到23.9%。在两个版本的ActivityNet数据集上一致的优异结果表明DMP-Net的有效性。
D.深部运动分析
在本文中,我们强调了光流模式的重要性,并在引导整个网络的训练之前构建了一个深度运动。在这里,我们设计了一些测试实验来验证我们想法的必要性。
表四:关于THUMOS'14不同训练模式的试点实验。“R&F”功能表示两种基于流的方法,即连接RGB和流模式。

1) 光流VS RGB模式:为了直观地比较这两种模式,我们对每种模式进行了对比实验。具体来说,我们选择了两种具有代表性的WSTAL方法:BaS Net[6]和TSCN[33],它们分别属于early fusion和late fusion类型。UM Net将RGB和光流模式的连接作为输入。分别基于这两个特征对TSCN进行训练,然后对每个分支的输出进行总结。对于这两种方法,我们只使用单一模态特征替换网络输入,并重新训练网络。这两种模型变体称为基于流和基于RGB的方法,而原始模型称为基于双流的方法。所有结果见表四。
定量结果。表IV中的结果表明,基于流的方法的性能略低于两种基于流的方法,但远远超过基于RGB的方法。例如mAP@IoU在BaS Net的0.5中,基于光流的方法仅比官方的双流方法减少0.6%,而基于RGB的方法的性能大幅下降8.6%。结果表明,RGB模式对动作的敏感性较低[33],进一步验证了我们的假设,即光流模式比RGB模式信息更丰富。
2) 从不同的模式学习动作:在我们的方法中,我们将光流模态馈送到引导分支以产生深度运动先验。在这里,我们进行了对比实验,将RGB或双流模式作为引导分支的输入。结果见表五。
定量结果。表V中的结果表明,RGB引导和两种流引导变体都会导致性能下降。例如mAP@IoURGB导向型的0.5%仅为22.2%,远低于光流导向型的34.2%。因此,我们得出结论,RGB模式不适合我们的运动建模,不能指导网络训练。
E.关于运动引导损失的消融研究
利用深度运动先验知识,我们提出了一种运动引导损失来调节网络训练。这里进行了更多的消融研究,从定量和定性的角度进行深入分析。

表五:对DMP-Net不同损失函数在THUMOS‘14上的消融研究。La表示传统的XE损失。Lg、Flow、Lg、RGB和Lg、R&F分别代表运动引导(ours)、RGB引导和双流引导损耗。Lg,Flow0表示没有正则化项的运动引导损失变量(ours)、RGB引导的和两个流引导的损失。Lg,Flow0表示没有正则化项的运动引导损失变量。
1) 运动引导损失VS XE损失:我们在传统的交叉熵损失法La(参见第III-E节)的指导下进行了比较实验。除训练损失外,所有其他实验设置均保持不变。
定量结果。表V中的结果表明,用La替换Lg,Flow会导致性能显著下降(例如,在mAP@0.5)这证明了运动建模是必要的,运动引导损失可以有效地指导网络训练。
定性结果。我们在图5中展示了交叉熵损失La和运动引导损失Lg的损失曲线,这表明我们的运动引导损失具有更温和的下降过程,但收敛到了更低的损失值。
此外,我们从THUMOS‘14测试集中随机选择一个视频,并分别使用La和Lg可视化训练良好的模型的TCAS结果。在图6的场景惩罚视频中,配备了La的模型没有找到第一个场景(即s1),这可能是因为足球球门没有出现在摄像机镜头中。此外,得分后的庆祝活动(即s3)也被误认为是一个动作。我们的DMP-Net有效地过滤掉了这些容易出错的片段。
2) 运动引导损失组件的消融:我们在运动引导的损失计算中应用了正则化项,防止了运动控制网络训练。本部分的消融研究如表5所示。
定量结果。从表五我们发现,没有正则化项的损失变量的性能不如完整版本。例如mAP@IoU0.5时,性能下降了3.8%(19.7%比23.5%),这表明我们的正则化项有利于网络训练。
F.运动图分析
为了获得与上下文相关的运动先验,我们构造了一个具有位置边和语义边的运动图。在这里,我们介绍了图组件的消融研究,并将我们的稀疏图与完全连通图进行了比较。

图5:THUMOS'14上DMP网络的XE损失(橙色)和运动引导损失(蓝色)的损失曲线。

图6:THUMOS'14的足球罚球视频示例。GT表示ground-truth动作示例。TCAS表示使用Lg和La训练的SOCCER类别的TCAS分布。通过阈值化得到预测结果,并用相应的模板进行可视化。
1)建模节点之间关系的必要性:如III-D中所示。我们引入了图卷积层,以帮助在代码片段之间传播信息。为了证明其有效性,我们采用2层多层感知器(MLP)实现了运动性建模,以进行比较。具体来说,我们丢弃了等式(4)中的邻接矩阵,即使用Xk=Xk−1Wk进行每一层的更新,其中Wk是可学习的参数。
定量结果。如表六所示,GCN在所有方面都有更好的性能,这证明了它在代码片段之间传递消息方面的优越性。
定性结果。我们还选择了一个视频,分别使用GCN和MLP可视化了两种变体的TCA和运动分布。图7中的结果表明,GCN有助于捕捉感兴趣的动作,并消除分散注意力的动作,例如,MLP错误地突出了球员运球,而相应的TCA主要由此类误导性背景动作控制。
2) 位置边缘和语义边缘的消融研究:位置边和语义边分别用于捕获周围和远程但语义相关的节点。我们对图形组件进行了消融研究,所有结果见表六。
定量结果。如表六所示,去除任何类型的边都会导致显著的性能下降,尤其是语义边。例如mAP@IoU在没有Esmt的情况下,0.6下降1.9%。因此,这两种边在关系建模中都起着非常重要的作用。

图7:THUMOS'14篮球扣篮视频示例。GT表示ground-truth行动示例。提出了利用MLP和GCN(我们的)进行篮球扣篮分类和运动分布的TCA。通过阈值化得到预测结果,并用相应的模板进行可视化。
表六:运动图上的消融研究。MLP表示使用MLP对片段相关进行建模。Dense表示以完全连接的方式构建运动图。Sparse是我们提出的运动图,具有位置边Epos和语义边Esmt。

3) 稀疏图与稠密连通图:构建运动图的直观方法是以密集方式连接所有节点,即在所有可能的节点对之间构建边。具体地说,根据公式(5),我们计算了矩阵为
,其中W1和W2是可学习的参数,T是时间节点的数量。显然,这种完全连接的方法计算量更大,需要更多的存储资源。
定量结果。如表六所示,完全连通图的性能落后于稀疏图(即w/ all edges)。例如,在mAP@IoU0.5时,性能下降了1.4%(34.2%v.s。32.8%)。
定性结果。为了揭示其背后的原理,我们从THUMOS'14测试集中选择了一个视频,并在图8中可视化了稠密连通图和稀疏图的相邻矩阵。我们可以很容易地观察到,全连通图邻接矩阵的高权重主要集中在对角线区域,即每个节点与其周围的节点更相关,这可能是因为视频数据的slowness prior,短期特征在局部窗口中变化缓慢。因此,相邻权重集中在位置相邻的区域,而忽略了距离较远但语义相关的片段。相比之下,我们的稀疏图通过鼓励片段之间的语义关联,即使它们距离很远,来缓解这个问题。例如,在图8中,由两个不同参与者执行的推铅球动作分散在长时间范围内。我们的运动图能够捕捉这些语义连接,而密集连接方式忽略了它们。

图8:铅球示例视频的相邻矩阵的可视化。左:稠密连通图;右图:我们的稀疏连接。我们选择一个标记为红色的时间节点。对于密集图和稀疏图,相关分数高的节点分别以棕色和黄色表示。
表七:其他backbone上的模型可扩展性。*表示将原始XE损失替换为我们的运动引导损失。

表八:对位置阈值θpos和相似度阈值γ的消融分析。

G.模型可伸缩性分析
我们提出的运动引导损失可以很容易地集成到其他WSTAL框架中,作为XE损失的替代方案。因此,我们进行了更多的实验来证明模型的可伸缩性。
1) 在其他主干上进行更多实验:为了证明我们的运动引导损失的一般有效性,除了上面应用的基线主干之外,我们选择了两个典型的WSTAL模型(BaS Net[6]和UM Net[7]),并用我们提出的运动引导损失替换了原始的XE损失。具体来说,对于这两种方法,我们还介绍了我们的引导分支,并使用它以运动引导损失的形式指导网络训练。所有的超参数设置与我们的基线相同。结果见表七。
定量结果。如表七所示,我们的运动引导损失导致两种方法的持续改进。例如,在BaS网络中,mAP@IoU应用我们的运动引导损失后,0.5提高了4.2%。这些结果表明,我们的运动引导损失是通用的,并且与不同的backbone兼容。
2) 超参数敏感性分析:我们对两个重要的超参数进行了实验,包括位置阈值θpos和相似度阈值γ。定量结果。如表八所示,当设置θpos=0.1时,mAP@0.5达到峰值性能。我们注意到,θpos值过大或过小都会导致性能下降。这可能是因为一个较小的θpos值会影响局部相关性的建模,而过大的θpos值会使网络类似于全连通图,这已被证明是一个次优设计。对于γ的值,我们可以看到,当γ大于0.6时,性能会迅速下降。另一方面,边数的代价随着γ值的增加而减少。为了在精度和计算开销之间进行综合权衡,我们设置了γ=0.6。
五、结论
在本文中,我们从总结现有弱监督时间动作定位(WSTAL)方法中被忽视的两个问题开始,即光流模式的使用不足和XE损失的不兼容性。然后,我们分析并论证了有效的运动建模在WSTAL中的重要性。因此,我们将GCNs应用于光流,以获得与上下文相关的运动先验,称为运动性。此外,我们使用它来调制视频级别分类,产生了一种新的运动引导损失。在三个基准上进行的实验,包括THUMOS'14、ActivityNet v1.2和ActivityNet v1.3个数据集验证了我们提出的DMP网络的最先进性能。

浙公网安备 33010602011771号