Graph Convolutional Module for Temporal Action Localization in Videos
0. 前言
摘要
时间动作定位需要机器识别视频中动作实例的位置和类别,在计算机视觉中一直被研究。时间动作定位的主要挑战在于视频通常长且未修剪,涉及不同的动作内容。现有的最先进的动作定位方法将每个视频划分为多个动作单元(即两阶段的建议和一阶段的片段),然后对每个视频分别进动作作识别/回归,而不是在学习过程中明确利用它们之间的关系。在本文中,我们认为动作单元之间的关系在动作定位中起着重要的作用,一个更强大的动作探测器不仅应该捕获每个动作单元的局部内容,而且应该允许与之相关的上下文有更广泛的视野。为此,我们提出了一个通用的图卷积模块(GCM),它可以很容易地插入到现有的动作定位方法中,包括两阶段和一阶段的范式。具体地说,我们首先构造一个图,其中每个动作单元被表示为一个节点,两个动作单元之间的关系被表示为一条边。在这里,我们使用两种类型的关系,一种用于捕获不同动作单元之间的时间连接,另一种用于描述它们的语义关系。特别是对于两阶段方法中的时间连接,我们进一步探索了两种不同的边,一种连接重叠的动作单元,另一种连接周围在但不相邻的单元。在我们构建的图上,我们应用图卷积网络(GCNs)来建模不同动作单元之间的关系,从而能够学习信息更丰富的表示,以增强动作定位。实验结果表明,我们的GCM持续提高了现有的动作定位方法的性能,包括两阶段方法(如CBR[15]和R-C3D[47])和单阶段方法(如D-SSAD[22]),验证了我们的GCM的通用性和有效性。此外,在GCM的帮助下,我们的方法在THUMOS14上显著优于最先进的技术(50.9%对42.8%)。ActivityNet上的增强实验也验证了动作单元之间关系建模的有效性。
1.介绍
由于计算机视觉在安全监视、人类行为分析等方面的各种应用,它是[12]、[36]、[38]、[42]等许多其他领域的一个长期研究目标。加入深度学习的成功,基于视频的动作分类[6],[38],[42]近年来取得了富有成效的进展。然而,这项任务假设了一个默许来处理被修剪和缩短的视频,这限制了它的实际潜力。相比之下,时间动作定位以未修剪和长视频为目标,以定位每个感兴趣的动作实例的开始和结束时间,并预测相应的标签。以图1中的体育视频为例,探测器应该确定动作事件发生的位置,并确定哪个属于该事件所属的类。视频收集和预处理的较低限制使得时间动作定位成为视频分析中更引人注目但更具挑战性的任务。
在过去的几年中,关于时间作用定位的研究一般来说,现有的方法可分为两种类型:两阶段范式[7]、[15]、[35]、[56]和单阶段范式[2]、[22]、[26]。对于两阶段的方法,它们首先生成一组动作建议,然后分别对每个建议进行分类和时间边界回归。在单阶段的方法中,他们将每个视频分成等数的片段,然后预测每个片段上安装的锚点的标签和边界偏移量。尽管这两种范式在是否使用外部建议方面有所不同,但它们具有相似的精神,即对每个动作单元独立进行分类/回归的精神——一般概念对应于两阶段方法的建议和单阶段方法的建议。然而,单独处理每个动作单元将不可避免地忽略两者之间的关系,并可能失去动作定位的关键线索。例如,目标单元周围的相邻动作单元可以为定位其时间边界提供时间上下文。同时,如果两个遥远的动作单元在语义上相似,它们也可以相互提供动作识别的指示性提示。
基于以上的直觉,本文从时间关系和语义关系两个角度探讨了动作单元之间的关系。为了说明这一点,我们重新访问图1中的示例,其中我们已经生成了五个操作单元。1)时间关系:动作单元p1、p2和p3相互重叠,描述了同一动作实例的不同部分(即开始周期、主体和结束周期)。传统的动作定位方法仅使用p1的特征就对其进行预测,我们认为这不足以提供完整的知识。如果我们再考虑p2和p3的特征,我们将获得更多关于p1的上下文信息,这尤其有利于p1的时间边界回归。另一方面,p4描述了背景(即运动场地),它的内容也有助于识别p1的动作标签,因为在运动场地上发生的事情很可能是体育动作(例如,“骑自行车”),而不是在其他地方发生的动作(例如,“接吻”)。换句话说,p1的分类可以部分由p4的内容来指导,因为它们在时间上是相关,即使它们不相连。2)语义关系:p5距离p1很远,但它在不同的视角下描述了与p1(骑自行车”)相同的动作类型。如果我们额外利用p5的内容,我们可以获得更完整的信息来预测p1的作用类别。

图1。我们的方法的示意图描述。我们应用图卷积网络来模拟动作单元之间的交互作用,并提高了时间动作定位性能。
为了模拟动作单元之间的相互作用,一种可能的方法是使用自注意力机制[39],就像之前在语言翻译[39]和目标检测[19]中所进行的那样,来捕捉动作单元之间的成对相似性。自注意力模块可以通过使用自动学习的聚合权值聚合来自所有其他动作单元的信息来影响单个动作单元。然而,这种方法的计算成本很高,因为查询所有动作单元对具有节点数的二次复杂度(注意,每个视频可以包含超过数千个动作单元)。相比之下,图卷积网络(GCNs)将卷积从网格数据(如图片)推广到非网格结构(如社交网络),在机器学习领域[24],[50]中受到了越来越多的兴趣。gcn可以通过聚合来自相邻节点的信息来影响每个节点,因此非常适合于利用动作单元之间的关系。更重要的是,与自注意力策略不同的是,应用gcn使我们只能从每个动作单元的局部邻域收集信息,从而可以显著降低计算复杂度。
在本文中,我们提出了一个通用的图卷积模块(GCM),它可以很容易地插入现有的动作定位方法以利用动作单元之间的关系。在这个模块中,我们首先将动作单元视为特定图的节点,并将它们的关系表示为边。为了构建图,我们研究了动作单元之间的三种边,包括:1)上下文边合并每个建议实例的上下文信息(例如,通过访问图1中的p2和p3检测p1);2)周围的边从附近但不同的动作单元查询知识(例如,查询p4的p1);3)语义边,涉及语义相似单元的内容,以增强动作识别(例如,通过考虑p5识别p1)。然后,我们对所构造的图进行图卷积。虽然信息是从每一层的本地邻居聚合而来的,但如果gcn的深度增加,那么在遥远的节点之间传递消息仍然是可能的。此外,为了避免巨大的计算成本,我们进一步设计了一种采样策略,以有效地训练gcn,同时仍然保持期望的检测性能。我们通过将GCM与现有的动作定位方法相结合,在两个流行的时序动作检测benchmarks,即THUMOS14[23]和ActivityNet1.3[5],上评估我们提出的方法。。
总之,我们的贡献如下:
•据我们所知,我们是第一个利用动作单元之间的关系在视频中进行时间动作定位的人。
•为了模拟动作单元之间的交互作用,我们提出了一个通用的图卷积模块(GCM),通过基于我们有价值的观察建立边来构建动作单元的图,然后应用GCN用于动作单元之间的信息聚合。我们的GCM可以插入到现有的两阶段和一阶段的方法中。
•实验结果表明,GCM在两个基准测试上持续提高了SSN[56]、R-C3D[47]、CBR[15]和DSSAD[22]的性能,证明了我们提出的GCM的通用性和有效性。特别是在THUMOS14上,当tIoU=0.5时,我们的方法获得了50.9%的mAP,显著优于SOTA,即[7]的42.8%。在ActivityNet上的增强实验也验证了动作建议关系建模的有效性。
本文从以下几个方面扩展了我们在ICCV2019上发布的初步版本[55]。1)我们将图的构造和图的卷积集成到一个通用的图卷积模块(GCM)中,这样所提出的模块就可以插入到任何两阶段的时间动作定位方法(如SSN、R-C3D和CBR)和启动方法(如D-SSAD)中。2)除了在我们的ICCV论文中利用的时间关系,我们进一步探索语义关系,以学习更有区别的表示。实验结果表明,语义关系为动作识别提供了更有价值的信息。3)我们进行了更多的消融研究(例如,语义边的分析,与基线方法的运行时比较,以及对启动方法的比较),以验证所提方法的有效性和有效性。4)在THUMOS14(50.9%vs.49.1%)和ActivityNet1.3(31.45%vs.31.11%)上与ICCV版本相比,我们获得了更好的动作定位结果。
2相关工作
时间动作定位。近年来,在深度学习[6],[38],[42]方面取得了很大的进展时间动作定位的发展。完成这一任务的方法可以分为三类:(1)执行帧级或分段级分类的方法,需要一个后处理步骤(如平滑和合并)来获得动作实例[29]、[31]、[34]的时间边界;(2)采用两阶段框架的方法,类似于图像中的两阶段目标检测方法。通常涉及提案生成、提案分类和边界细化[35]、[47]、[56];(3)将提案生成和分类(和/或边界回归)集成到端到端架构中的方法,通常称为单阶段动作定位方法[2]、[26]、[52]。
我们的工作可以用来帮助两阶段和一阶段的动作定位范例,其中每个视频被分成多个动作单元,每个动作单元都被单独处理。Shou等人[35]按照两阶段模式提出了从滑动窗口生成一组候选提案,并使用深度神经网络对其进行分类。Xu等人[47]利用了3D卷积网络,并提出了一个受Faster R-CNN[32]启发的框架。Lin et al.[26]采用单阶段范式,将视频分成若干段,利用卷积层获取视频特征,并通过锚层对其进行进一步处理,进行时间动作定位。Huang等人[22]在一个阶段方案中实现了定位和分类的解耦。然而,上述方法忽略了动作单元的上下文信息。为了解决这个问题,已经开发了一些尝试来合并上下文,以增强提案功能[7]、[10]、[14]、[15]、[56]。他们展示了令人鼓舞的改进,提取特征的扩展接受域(即边界)的建议。尽管它们取得了成功,但它们都单独处理每个动作单元。相比之下,我们的方法考虑了动作之间的关系。
基于关系建模。关系建模已经被证明在许多计算机视觉任务中非常有用,如目标检测[19],视觉推理[9]和图像分类[44]。例如,对象检测的性能可以通过考虑对象关系来提高,因为图像中的对象通常是高度相关的[19]。最近,Kipf等人[24]提出了图卷积网络(GCN)来定义非网格结构上的卷积。由于GCN在关系建模方面的有效性,它被广泛应用于计算机视觉的几个研究领域,如基于骨架的动作识别[50],对象检测[48]和视频分类[45]。Wang等人在动作分类任务中使用图形来表示物体之间的时空关系。Xu等人[48]基于对象之间的空间配置构造了一个对象图用于对象检测。我们的工作同时考虑了动作单元之间的时间和语义关系,以应对更具挑战性的时间动作定位任务,其中需要同时进动作作分类和定位。最近,Xu等人提出了一种带图的单阶段动作定位方法来挖掘视频片段之间的关系。我们的工作能够为动作单元(即动作单元)之间的关系建立模型。因为它可以很容易地插入到现有的动作定位方法中,包括两阶段和一阶段范式。
图抽样策略。对于真实的应用程序,这个图可能很大,直接使用GCNs效率很低。因此,为了利用抽样策略进行有效的训练,已经进行了多次尝试,如节点方法SAGE[17]、分层模型FastGCN[8]及其层相关变体AS-GCN[21]。在本文中,考虑到框架的灵活性和可执行性,我们采用SAGE方法作为抽样策略。
3我们的方法
3.1符号和准备
我们表示一个未修剪的视频为V={It∈RH×W×3}Tt=1,It表示在时间段t具有高度H和宽度W的帧,在每个视频V,P={pi|pi=(xi,(ti,s,ti,e))}是感兴趣的动作单元,动作单元可以是两阶段动作定位方法中的proposal(例如,SSN[56])或单阶段方法中的一个视频片段(例如,SSAD[26])。设ti,s和ti,e分别为一个动作单元的开始时间和结束时间。另外,给定动作单元pi,设xi∈Rd为某一特征提取器(如I3D网络[6])从Iti,s和Iti,e之间的帧中提取的特征。
让G(V、E)是一个有N个节点的图,节点vi∈V,边eij=(vi,vj)∈E.此外,让A∈RN×N作为G的邻接矩阵,在本文中,我们试图利用P中动作单元上的图G(P,E)以更好地建模视频动作单元之间的交互。在这里,每个动作单元被视为一个节点,E中的边被用来表示节点之间的关系。
3.2我们的方法的总体方案
我们着重于解决现有的时间动作定位方法忽略了动作单元之间的关系的问题,但这能够显著提高定位精度。因此,我们提出了一个通用的图卷积模块(GCM),它可以以即插即用的方式插入到现有的动作定位方法中。特别地,GCM使用图G(P,E)来表示动作单元之间的关系,然后在图上应用GCN来利用这种关系并学习动作单元的强大表示。直觉是,当执行图卷积时,每个节点从其邻域聚合信息。这样,每个动作单元的特征都被其他动作单元所增强,这有助于最终提高检测性能。我们的方法的原理图如图2所示。
在不丧失一般性的情况下,我们假设已经通过一些方法(例如,[56]中的TAG方法)预先获得了动作单元。根据动作单元{xi}Ni=1及其初始时间边界{(ti,s,ti,e))}Ni=1的特征,我们的GCM根据动作单元之间的时间和语义关系构造了一个图G。然后,我们在GCM中应用了一个k层GCN来利用这些关系,得到了动作单元的关系感知特征Y。对于第k层(1≤k≤k),图卷积为

这里,A是邻接矩阵,W(k)∈Rdk×dk是需要学习的参数矩阵,X(k)∈RN×dk是第k层所有动作单元的隐藏特征,X(0)∈RN×d是输入特征。在特征被输入到下一层之前,我们在每个卷积层之后应用一个激活函数(即ReLU)。此外,我们的实验发现,通过进一步将隐藏特征与最后一层的输入特征结合起来,它更有效,即:


图2。我们方法的原理图。(a)给定一组动作单元(例如,两阶段方法中的提案和一阶段方法中的片段),我们的图卷积模型(GCM)通过每个动作单元实例化图中的节点。然后,我们在节点之间建立三种边来建立动作之间的关系模型,并在构建的图上使用GCNs。最后,我们的GCM模块输出关系感知特征。(b)对于两阶段动作定位方法,第二阶段可以使用我们的GCM来增强proposal特征,用于动作分类和边界回归。(c)对于单阶段动作定位方法,可以利用我们的GCM增强anchor层之前的视频特征。
在这里,以一种基于元素的方式执行求和。然后利用关系感知动作单元特征Y,通过计算,联合预测每个动作单元pi的动作类别Yi和时间位置(ti,s, ti,e)
其中F表示任意动作定位方法,如SSN[56]、R-C3D[47]、CBR[15]和D-SSAD[22]。
在接下来的章节中,我们的目标是回答两个问题:(1)如何构建一个图来表示动作之间的关系,(2)如何将我们的GCM插入到现有的动作定位方法中,包括两阶段范式和一阶段范式。
3.3动作单元图的构建
对于每个视频的图G(P, E),节点被实例化为动作单元,而动作单元之间的边E则需要被明确地表示出来,以便更好地对关系进行建模。构造边的一种方法是将所有的动作单元彼此连接起来,这就导致了遍历所有动作单元对的大量计算。由于一些不相关的动作单元不应该连接在一起,它还会为动作定位带来冗余或噪声信息。在本文中,我们设计了一个更聪明的方法,利用时间相关性/距离和动作单元之间的语义关系。具体地说,我们介绍了三种类型的边,分别是上下文边、周围边和语义边。
3.3.1上下文边
如果r(pi, pj) > ctx,我们在pi和pj的动作单元之间建立一条边,其中ctx是一定的阈值。其中r(pi, pj)表示动作之间的相关性,由tIoU度量定义,即

其中I(pi, pj)和U(pi, pj)分别计算两个动作单元的时间交并。如果我们关注提议pi,通过计算r(pi, pj) > θctx来建立边,将其邻域选择为与之有高重叠的邻域。显然,高度重叠邻域的非重叠部分可以为pi提供丰富的上下文信息。正如[7],[10]中已经展示的,探索上下文信息对于细化检测边界有很大的帮助,最终提高检测精度。在这里,通过我们的上下文边,所有重叠的动作单元自动地相互共享上下文信息,这些信息通过图卷积进一步处理。
3.3.2周围边
上下文边连接重叠的动作单元,这些单元通常对应于相同的动作实例。实际上,周围的但不连贯的动作单元(包括背景项)也可以相互关联,它们之间传递的消息将有助于彼此的检测。例如,在图1中,背景p4提供了关于确定动作单元p1的动作类的指导(例如,更可能是运动动作)。为了处理这种相关性,我们首先使用r(pi, pj)=0来查询不相连的动作单元,然后计算以下距离

如果d(pi, pj)<θsur,则在附近的动作单元之间添加边,其中sur是一定的阈值。式(5)中ci(或cj)表示pi(或pj)的中心坐标。作为上下文边的补充,周围边使消息能够跨不同的动作实例传递,从而为检测提供更多的时间线索。
3.3.3语义边
上述的背景和周围的边,目的是利用时间背景为每个动作单元,但仍忽略了动作单元之间的语义信息。值得注意的是,一个未修剪的视频通常包含多个动作实例(例如,THUMOS14 dataset[23]上的每个视频平均包含超过15个动作实例),并且一个视频中的实例通常属于相同或语义相似的动作类别。例如,在THUMOS14上的动作CricketBowling和CricketShot经常出现在同一个视频中。尽管在执动作作定位时,它们的类别不同,但可以直观地看出,CricketBowling的语义有助于从其他动作(例如,CliffDiving)中识别CricketShot。因此,位于与动作距离较远但包含相似语义内容的建议可能为检测动作提供指示性提示。
为了利用这些语义信息进动作作定位,我们在共享相似语义的动作单元之间添加了一个语义边。特别地,我们首先为第i个动作单元定义一个动作单元集Si

其中Nl(i)为建议pi的l个最近邻居的索引集,Nl(i)基于动作单元特征xi和xj之间的余弦相似度在特征空间中构造。然后,我们在pi和Si中的动作单元之间建立了一个语义边界。注意,动作单元特征xi可以是包含丰富语义信息的高级外观或动作特征。换句话说,具有相似外观(例如一些相似的地方)或动作(例如不同动作者执行相同的动作)的动作单元可以用来帮助识别动作单元。综上所述,节点pi与pj之间的边eij可以表示为

3.3.4邻接矩阵
在等式(1)中,我们需要计算邻接矩阵A。这里我们通过给边分配特定的权值来设计邻接矩阵。例如,我们可以利用余弦相似度来估计边eij的权值

在上述计算中,我们依靠特征向量xi计算Aij。我们还可以将特征向量映射到嵌入空间中,使用一个可学习的线性映射函数,如在余弦计算之前的[44]。我们把讨论留在实验中。
3.4两阶段动作定位GCM方法
由于GCM的剩余特征(参见等式(2)),被提议的GCM可以很容易地插入到现有的两阶段动作定位方法中,这通常包括以下步骤:步骤1:生成一组候选方案,其中可能包含动作实例;步骤2:使用一些特定的特征提取器,可以是现成的[15]或经过端到端训练的[47],获得建议特征;步骤3:使用动作分类器和边界回归器处理提案特征,通常作为全连接层实现;步骤4:执行重复删除,通常通过使用非最大抑制(NMS)来实现。
在本文中,我们提出的GCM在步骤2和步骤3之间使用。给定一组提案,我们的GCM首先根据式(7)构造一个提案图。然后,通过式(1)和(2)对构造的图进行图卷积,得到关系感知的提案特征。加入之前的工作SSN [56],我们发现,利用两个gcm分别对动作标签和时间边界进行预测是有益的,一个gcm对原始提案特征xi进行预测,另一个gcm对扩展提案特征x'i进行预测。第一个GCM的表达式为

在这里,我们应用一个全连接(FC)层,在GCM1的顶部使用softmax操作来预测动作标签
。第二种GCM可以表示为

其中,图结构G(P,E)与等式中的相同(9),但输入建议的特征是不同的。首先将pi的时间边界扩展为左右两侧长度的12,然后在扩展边界内提取特征,得到扩展特征x'i。在这里,我们在GCM2之上采用两个FC层,一个用于预测边界(
,
),另一层用于预测完整性评分
,这表明该建议是否完整。[56]已经证明,具有低tIoU的不完全动作单元可以具有较高的分类分数,因此在单独使用分类分数对mAP测试提案进行排序时,会犯错误;进一步应用完整性评分使我们能够避免这个问题。
对于其他不依赖于双流流程的两阶段动作定位方法(如CBR[15],R-C3D[47]),如SSN,我们只插入一个GCM。具体来说,GCM以原始建议特征xi作为输入,输出关系感知特征,分别由两个FC层进一步处理,预测动作分类和边界回归。在形式上,动作定位过程可以表述为

其中,FC∗表示全连接(FC)层,它们的输入是GCM产生的相同的关系感知特征。
3.5 GCM用于单阶段动作定位方法
我们提出的GCM是一个通用模块,用于开发动作单元之间的关系,这些单元可以是单阶段动作定位方法中的段,如第1节所讨论的。
现有的一阶段方法[22],[26]的灵感来自于图像[28]中的one-stage目标检测方法。在这些方法中使用了一个三步流程,总结如下。步骤1:将输入视频均匀分成T段,并对每个段提取C-dim特征向量,得到一维特征映射F∈RT×C;步骤2:获得多时间尺度的一维特征图(即不同时间粒度)依赖于F;步骤3:预测锚点在1D特征map上每个定位的动作类别和边界偏移量。为为了更好的可读性,我们将每个定位的特征向量称为一个特征单元。
我们建议的GCM在步骤2和步骤3之间使用。尽管特征单元的边界是不重叠的,但是我们可以结合我们的GCM来利用特征单元之间的关系,只需稍加修改。特别地,我们只考虑周围的和语义的边来连接特征单元,并执行图卷积来聚合消息。直觉上,特征单元可以被视为提案的一个特例。具体来说,每个feature unit对应于视频中具有一定时长的一个片段,这些片段是不重叠的。通过将GCM添加到1D特征映射中,我们能够利用1D特征映射中特征单元之间的关系。值得一提的是,我们的模块可以在整个网络中一次或多次插入,以对不同规模的特征关系建模。
3.6训练细节
3.6.1 Loss function
我们提出的方法不仅可以预测每个提案的动作类别和完整性得分(当我们将GCM插入SSN[56]时),而且还可以通过定位回归细化动作单元的时间边界。为了训练我们的模型,我们定义了以下损失函数:
分类损失。我们将动作分类器的训练损失函数定义为:

其中yi和yi分别是第i个动作单元的ground-truth和预测。我们使用交叉熵损失为L1, N是一个mini-batch中的动作单元的数量。
完整性损失。考虑到第i个动作单元的预测完整性得分ei和ground truth ei,我们使用以下损失函数来训练完整性预测器:

其中L2为hinge损失, Ncom为完整性训练样本数。1icom为指示函数,yi≥1时为1(即动作单元不视为背景的一部分),否则为0。
回归损失。我们设计了一组定位回归器{Rm}m=1Nclass,每个定位回归器对应一个动作类别。对于一个动作单元,我们使用最近的ground-truth 实例作为目标来回溯边界。我们的方法预测相对于动作单元的偏移量oi = (oi,c, oi, l),其中oi,c, oi, l分别是中心坐标的偏移量和长度的偏移量。ground-truth 偏移量记为oi = (oi,c, oi,l),参数为:

其中ci和li分别表示动作单元的原始中心坐标和长度。cgt和lgt分别是最近ground-truth的中心坐标和长度。为了训练回归器,我们定义如下损失函数:

算法1我们方法的训练细节。

其中Nreg为回归训练样本的个数。1ireg为指标函数,当yi≥1且ei = 1时,为1(即提案是前景样本),否则为0。我们使用平滑L1损失作为L3,因为它对异常值不太敏感。
多任务的损失。我们使用以下多任务损失函数对整个模型进行训练:

其中λ1和λ2是权衡这些损失的超参数。我们在所有的实验中设置λ1 = λ2 = 0.5,并发现它在所有的实验中都是有效的。值得一提的是,我们只在将GCM插入SSN方法[56]时考虑完整性损失。
3.6.2高效训练采样
典型的动作单元生成方法通常为每个视频生成数千个动作单元。在所有动作单元上应用上述图卷积(等式(1))需要大量的计算和大量的内存占用。为了加速GCNs的训练,提出了基于邻域抽样的几种方法:[8]、[17]、[21]。这里,我们的方法采用了SAGE方法[17],以提高方法的灵活性。
SAGE方法以自顶向下的方式逐层对每个节点的固定大小的邻域进行统一采样。换句话说,第(k−1)层的节点被表示为第k层节点的采样邻域。采样所有层的所有节点后,SAGE以自底向上的方式执行信息聚合。这里,我们将聚合函数指定为式(1)的抽样形式,即

其中节点j从节点i的邻域采样,即, j∈N(i), N为抽样容量,远小于总个数N。将式(18)中的和进一步标准化
通过Ns,它使得训练更加稳定。此外,我们还对式(18)中的节点i强制其特征的自加法。我们在测试时不进行任何抽样。为了更好的可读性,算法1描述了我们的方法的算法流程。
4实验
4.2实现细节
评价指标。我们使用平均平均精度(mAP)作为评价指标。如果提议与ground-truth实例的时间IoU大于某个阈值,且预测类别与ground-truth实例相同,则认为该提议是正确的。在THUMOS14上,tIOU的阈值选择为{0.1,0.2,0.3,0.4,0.5};在ActivityNet v1.3中,IoU阈值来自{0.5,0.75,0.95},我们还报告了IoU阈值在0.5到0.95之间,步长为0.05的平均mAP。
图构造。我们通过确定网格搜索选择的双流的θctx为0.7和θsur为1的值来构造图。我们采用2层GCN,因为我们观察到超过2层没有明显的改进,但增加了模型的复杂性。为了提高效率,除非另有规定,我们在等式(18)中选择n = 4进行邻域抽样。
训练。初始学习率为RGB流0.001,流量流0.01。在训练期间,学习率被每15个epoch除以10。dropout率为0.8。
测试。我们不执行邻域采样(即式(18))进行检验。RGB和流的预测采用2:3的比例进行融合。我们将分类得分与完全性得分相乘作为计算mAP的最终得分。然后,我们使用非最大抑制(NMS)来分别获得每个动作类的最终预测时间动作单元。我们在THUMOS14和ActivityNet v1.3上分别使用800和100个动作单元来计算地图。
两阶段方法的动作单元和特征。两阶段法中的动作是指动作。我们的模型是在双流策略[36]:RGB帧和光流场下实现的。1)对于SSN[56],我们首先将每个输入视频统一划分为64帧RGB/光流段并采用在Kinetics[6]上预训练的双流I3D模型获得每个段的1024维特征向量。在I3D特征的基础上,我们进一步应用最大跨段池化的方法,得到每个提案一个1024维的特征向量,该向量是通过BSN方法[27]得到的。注意,在我们的训练阶段,我们没有对I3D模型的参数进行微调。除了I3D特征和BSN提议,我们在5.4节中的消融研究还探索了其他类型的特征(例如,2D特征[27])和提议(例如,标签动作单元[56])。2)对于CBR[15],我们使用ActivityNet v1.3训练集上预训练的双流模型[46]作为特征提取器。我们使用从[15]的提案阶段获得的提案来执动作作定位。3)对于R-C3D[47],我们使用由C3D[38]改进的3D ConvNet来提取提案特征。我们采用[47]中提案子网生成的提案进行公平比较。
5.结论
在本文中,我们利用动作之间的关系来解决视频中的时间动作定位问题。具体来说,我们建议基于时间上下文和语义信息构建动作单元图,并应用GCNs允许在动作单元之间传递消息。通过这种方式,我们增强了动作单元特征,并最终改进了动作定位性能。更关键的是,我们将上述的图构造和图卷积过程集成到一个通用的图卷积模块(GCM)中,可以很容易地将其插入到现有的动作定位方法中,包括一阶段范式和两阶段范式。实验结果表明,该方法与其他动作定位方法兼容,可以不断提高其动作定位精度。在GCM的帮助下,我们的方法在两个基准上比最先进的方法有很大的优势,即THUMOS14和ActivithNet v1.3。扩展我们的方法到图像中的目标检测将是有趣的,我们把它留给我们未来的工作。

浙公网安备 33010602011771号