哪有什么岁月静好,不过是有人替你负重前行!

Action Shuffling for Weakly Supervised Temporal Localization

0. 前言

  • 相关资料:

    • arxiv

    • code

    • 论文解读

  • 论文基本信息:

    • 领域:弱监督时序动作定位

    • 发表时间:arxiv 2021(2021.5.10)

  摘要-弱监督动作定位是一项具有挑战性的任务,有着广泛的应用,其目的是识别动作和相应的时间间隔,只有视频级别的注释可用。该文分析了动作的顺序敏感和位置不敏感特征,并将其应用到自增强学习框架中,以提高弱监督动作定位性能。具体地说,我们提出了一种新的具有动作内/动作间重组的双分支网络结构,称为ActShufNet。动作内重组分支设计了一个自监督的顺序预测任务,以增加具有内部视频相关性的视频表示,而动作间重组分支对现有动作内容实施重组策略,以在不依赖任何外部资源的情况下增加训练集。此外,为了增强模型对无关噪声的鲁棒性,提出了全局-局部对抗训练。在三个基准数据集上进行了大量实验,结果清楚地证明了该方法的有效性。

 

一、导言

  时序动作定位是视频内容理解中最具挑战性的任务之一,引起了社会各界的广泛关注。给定一段未经clip的视频,动作定位旨在确定与感兴趣的动作相对应的时间间隔。在完全监督的场景[1]、[2]、[3]、[4]中已经取得了显著的进展,其中帧级注释是必不可少的。不幸的是,为了获得详细的注释,大量的标记工作使得完全监督的方法不适用于大规模视频集。这导致了弱监督范式[5]、[6]、[7]、[8]、[9]、[10]、[11]的流行,它只需要视频级别的注释就可以推断出帧级别的预测。迄今为止,各种弱监督的动作定位方法已经被提出,最新的进展表现出两个显著的趋势。(1) 动作背景建模。最新的研究表明,明确地建模动作和背景内容被证明是一种有效的表征学习方式[6]、[7]、[9]、[8]。通过分别学习视频级别的动作和视频的背景表示,可以提高动作定位性能

  图1:动作的顺序敏感和位置不敏感特征的图示。

  然而,视频级建模只能捕获粗粒度的描述。对动作的内在特征进行深入分析的研究较少。(2) 探索外部资源。为了弥补弱监督带来的有限信息,借助外部资源已成为另一种趋势。通常,公开可用的视频或生成的带有视频级别或帧级别标签的伪视频被用作补充训练数据[12]、[6]、[13]。尽管通过这种方式实现了所有性能提升,但也出现了新的挑战。首先,原始数据集和辅助数据集之间的源-目标自适应对于稳健的知识转移至关重要,但很难实现。另一方面,新训练视频的特征提取给计算消耗带来了额外负担。为了解决上述问题,本文旨在揭示动作的性质,并将其体现到模型中,以实现有效和高效的弱监督动作定位。

  克里斯托弗·诺兰(Christopher Nolan)执导的2020年热门电影《特尼特》(Tenet)以“时间倒转”(time inversion)的艺术开启了一个戏剧性的世界,人物可以回到过去。这篇论文无意成为故事的破坏者。然而,有两个有趣的现象对我们的动作分析有很大的启发。在电影中,当时光倒流时,动作会变得怪异而难以理解。相比之下,当通过向后的时间旅行到达过去的某个时间点,并恢复向前的时间轴时,尽管周围的环境发生了巨大的变化,但动作会恢复正常并似乎很好地融入其中。这部令人兴奋的电影展示了图1所示动作的两个关键特征。

  •一方面,动作对顺序敏感。我们知道,视频的动态运动特征通过有序帧内的时间相关性来反映。改变动作的内部顺序可能会显著改变其语义。特别是在特尼特以相反的顺序开枪变成了抓子弹,这是一种完全不同的行为。

  •另一方面,动作对位置不敏感。与对内部顺序的依赖相比,一个行为相对独立于它发生的时间。在不同的时间点采取同一类别的动作不太可能影响底层语义,只要保持原有的内部顺序。

  受动作顺序敏感和位置不敏感特征的启发,本文提出了一种新的具有动作内/动作间重组的弱监督动作定位网络结构,称为ActShufNet。在传统的基于注意力的动作识别和定位范式的基础上,我们构建了一个自增强的学习模型,以实现在不依赖任何外部资源的情况下提高表示能力。我们的模型从基于class-agnostic注意力的初步分割动作开始,经过两条分支,即动作内和动作间的重组。动作内重组随机改变动作的内部顺序,旨在通过自我监督任务恢复其原始顺序。通过这种方式,优化的表示被强制捕获动作的潜在内在相关性,这有助于随后的语义推断。动作间动作重组随机选取同一类别的动作,这些动作共同创建新的未clip视频,这些视频自然附加了共享视频级标签。这样,训练数据集可以任意扩展,同时在每个创建的视频中包含更多种类。为了进一步增强模型对动作和背景的区分能力,提出了全局局部对抗训练方案,以获得抗干扰的鲁棒学习性能。我们工作的主要贡献总结如下。

  •我们设计了动作内/动作间重组机制,以充分利用动作的顺序敏感和位置不敏感特征,并提高模型的表示能力。该模型以自增强的方式工作,不需要外部资源。

  •我们设计了全局-局部对抗训练方案,以增强模型在视频级预测和片段级动作背景识别方面对无关噪声的鲁棒性。

  •我们设计了网络架构,将不同的模块集成到一个统一的框架中,该框架以端到端的方式进行优化。在具有挑战性的未经clip的视频数据集上进行的大量实验表明,ActShufNet在技术水平上取得了令人鼓舞的结果。

  本文的其余部分组织如下。我们在第二节回顾了相关工作,并在第三节介绍了提出方法的细节。第四节报告了实验评估的结果,第五节报告了结论。

二、相关工作

  动作识别的目的是确定clip视频中人类动作的类别。早期的方法提取手工制作的特征,例如改进的密集轨迹(iDT)[14],[15],包括沿着密集轨迹提取的MBH、HOF和HOG特征。近年来,随着深度学习的发展,各种基于深度学习的方法被提出,双流网络[16]分别使用二维卷积神经网络在单帧和叠层光流场上操作网络来学习空间和时间特征。C3D[17]使用3D卷积网络直接捕获空间和时间信息,以学习鉴别特征。I3D[18]被用来在twostream架构下使用一个3D版本的Inception network[19]。Wang等人[20]开发了一个时间段网络,用于执行空间稀疏采样并融合时间结果。也有使用递归神经网络对时间信息建模的方法,如LSTM[21]。

  时间动作定位的目的是识别包含目标动作的时间间隔。以前的工作主要集中在设计手工制作的特征表示来对滑动窗口进行分类[22]。最近,全监督的动作定位方法利用目标检测的思想来获得更好的定位结果。SSAD[23]利用1D时间卷积层直接检测未clip视频中的动作实例。SSN[1]提出利用结构化时间金字塔来建模动作实例的时间结构。S-CNN[24]利用多阶段CNN学习分层特征表示。BSN[3]采用从局部到全局的多阶段方式来生成时序提案。除全监督方法外,弱监督方法也得到了广泛的研究,可分为两类。自上而下的方法(例如,UntrimmedNets[25]、WTALC[5]、3C Net[26]、CMCS[6]、BasNet[10])学习视频级分类器,然后生成帧激活分数以定位动作。自顶向下方法直接从视频中学习时间注意,并通过视频分类任务优化注意。TSRNet[12]利用了自我注意机制和转移学习,并将它们整合在一起,在未clip的视频中获得精确的时间间隔。Autoloc[27]提出用外部对比损失训练边界预测器,直接预测每个动作实例的时间边界。STPN[28]添加了稀疏约束,以鼓励动作稀疏。BM[7]对背景特征进行了惩罚,并提出了一种聚类损失来分离动作和背景。DGAM[9]提出使用条件VAE对以帧注意为条件的class-agnostic帧概率进行建模。

  自监督学习是一种通过解决繁重的标注任务来学习表示的技术,可以获得伪监督信号。视频分析中的自监督学习旨在通过解决借口任务,从未标记的数据中学习运动表示。Wang等人[29]利用不同的自监督方法来学习对象块之间的实例间和实例内变化不变的表示,对象块是使用运动线索从未标记的视频中提取的。在[30]中,视频中帧的时间顺序被用来学习时间特征。类似地,罗和王[31]等人,[32]提出通过预测运动流来学习视频表示。受[30]的启发,我们还探索了动作框架的时间顺序来学习精确的特征。据我们所知,这是第一次尝试将自监督学习与弱监督动作定位相结合

   图2:ActShufNet的详细框架图。在训练阶段,ActShufNet从特征提取开始。然后将提取出的特征输入注意机制模块,得到紧凑的特征表示。然后采用对抗性训练方案对动作识别任务进行了优化。在测试阶段,得到了定位结果

  对抗性学习 在计算机视觉领域被用来重建目标特征。一般来说,它用于提高模型的鲁棒性。古德费罗等人提出了一种对抗性的方法,即FGSM[33]和FGM[34],使干扰的方向沿着梯度上升的方向。Madry等人[35]建议使用投影梯度下降(PGD)来解决内部最大值问题。自古德费罗等人[36]2014年的开创性工作以来,针对各种各样的问题提出了一系列GAN族方法,这些方法基于对应于极小极大两人博弈的对抗过程。通过对抗性学习,我们在动作和背景之间构建了对手,以准确区分它们。

 

三、 提出的方法

  在本节中,我们介绍了动作内/动作间重组的框架,即ActShufNet,如图2所示。ActShufNet作为一种弱监督学习模型,在训练阶段从未修剪的视频和相应的视频级标签中进行学习,并在测试阶段预测未修剪视频的帧级标签。对于一个有T帧/片段的视频V={ft|Tt=1},我们遵循双流标准实践,通过预训练的特征提取模型提取RGB或光流视频特征X=[xt|Tt=1]∈Rd×T,其中xt∈Rd是第t个帧/片段的特征向量,d是特征维度。在不丧失一般性的情况下,我们使用了帧级特征提取,尽管所提出的方法也适用于段级特征。视频级标签表示为y=[yc|C+1c=1]∈RC+1,其中C是感兴趣的动作数,第(C+1)类对应于背景。给定X,模型输出不重叠的动作实例为{(si,ei,pi)|mi=1},其中,si、ei和pi分别表示第i个动作实例的开始时间、结束时间和预测类标签,m为已识别的动作实例数。

A.基于注意力的表征学习

  可变长度T的未裁剪视频带来可变特征矩阵,处理非常不方便。因此,我们利用基于注意力的机制来集成帧级描述,并获得固定大小的紧凑表示。

  基于注意力的表示学习模块旨在通过优化动作识别任务,获得未修剪视频的注意力向量λ=[λt|Tt=1]∈RT。注意力权重λt∈[0,1]表示第t帧在识别一个动作中的贡献。使用λ在帧上执行注意力加权时间平均池化,我们在任意间隔[start,end](1≤start<end≤T)间获得视频段v[start,end]=[ft|endt=start}的固定大小的动作表示xa[start,end]∈Rd如下。

  特别是对于整个视频V,动作特征计算为xa=xa[1,T]

  类似地,(1−λt)可以看作是在第t帧中没有动作发生的置信度,我们可以计算背景表示xb[start,end]∈Rd如下。

  整个视频V的背景特征是xb=xb[1,T]

  对于动作识别,分类损失应该鼓励动作和背景的辨别能力。

  其中,Lce(p,y)=−yTlog(p)为交叉熵损失,pcls(·)为动作识别模块的概率输出,yb∈[0,...,0,1]为背景标签。

  对于动作定位,利用时间类激活映射(TCAM)定位触发视频级别标签的关键帧。给定视频和视频级别标签y,TCAM计算如下:

 

  其中,wc表示c类的分类模块的参数。G(σs)是一个标准差为σs的高斯平滑滤波器,∗表示卷积。TCAM被期望与注意力相一致,从而通过自我引导损失来改善注意力。

  基于注意力λ,我们可以在未修剪的视频中初步分割动作和背景片段。请注意,与更细粒度的操作定位相比,分离是粗粒度的。然而,动作和背景可以为鲁棒表示学习提供新的视角。如图2右侧所示,一个视频V可以被分割成m个动作子视频A={va[si,ei]|mi=1}和(m+1)背景子视频B={vb[ei−1,si]|m+1i=1}。具体来说,e0=1和sm+1=T分别是视频的第一帧和最后一帧

B.动作内重组

  如前所述,动作片段中的帧顺序对于理解语义至关重要。为了提高注意力模块的表示能力,我们进行了动作内重组,并开发了一个自监督的顺序恢复任务。具体来说,我们从一个初步分割的动作子视频中抽取不重叠的片段,并将它们随机排列。利用原始顺序作为自监督,我们学习了一个基于片段注意力加权特征的片段顺序预测模型。

  形式上,从每个动作子视频va[si,ei]∈A,我们均匀采样N个固定大小的片段,表示为{v[si,k,ei,k]|Nk=1}∈va[si,ei],其中si≤si,k<ei,k≤ei。通过这种方式,分散的片段可以描述动作的不同阶段,同时它们之间的相似性较小。根据等式(1),每个clip的特征向量为xa[si,k,ei,k]。采样的N个片段被随机打乱并组织成一个元组来形成输入数据,以它们的原始顺序作为目标。我们将顺序预测作为一个分类任务,它输出输入clip特征在不同顺序上的概率估计。顺序预测模块采用多层感知器(MLP)结构实现。clip特征首先被成对地连接起来。每个连接的对被输入ReLU函数,得到一个关系向量,即rkj,它捕获了两个clip之间的关系。将关系向量进一步连接,通过具有softmax的FC层得到预测的顺序Pord。顺序预测操作的公式如下。

  式中,||是向量的串联操作,k≺j表示clipk在clipj的前面,W1,b1,W2,b2是线性变换的参数。

  基于交叉熵函数对顺序损失的顺序预测模块进行优化如下。

  其中,yord∈RN!是原始的顺序。正如我们所看到的,所有可能的顺序的数量,即N!,随着clip数量的增加而过度增长。为了提高效率,我们设置N=5,得到5!=120个顺序。

  动作内重组发展了自监督的顺序预测任务,这隐含地有利于表征学习。有序性缺失促使基于注意力的视频特征在动作中抓住顺序敏感信息,从而很好地嵌入动态连贯性,增强表示能力。

C.动作间重组

  与对动作帧顺序的敏感度不同,动作对位置相对不敏感。换句话说,在不改变动作内部内容的情况下重新定位动作作为一个整体不会影响语义。基于位置不敏感性,我们开发了动作间重组策略来创建新的训练视频。具体来说,我们从同一类的视频中随机选择几个动作片段,并将它们连接到一个新视频中。共享类标签仍然适用于新视频是合理的。因此,扩展视频自然会附加视频级别标签,并且可以安全地用作额外训练数据。

  设T={(V(l),y(l))|Ll=1}表示由L个视频和相应的视频级标签组成的训练数据集。给定一个使用基于注意力的片段预测的动作实例va(l)[si,ei]∈A(l)⊂V(l),我们稍微膨胀其边界,得到外边界动作子视频V(l)[si−∆,ei+∆],其中∆是膨胀区间。从一个特定的动作类的视频,我们随机选择外边界动作子视频,并生成一个新的视频={v(l)[si−∆,ei+∆]|l∈[1,L],y(l)=,i∈[1,m(l)]},视频级标签为,其中m(l)是V(l)中预测动作实例的数量。请注意,对于生成的视频,不需要从头开始提取特征。生成的视频的特征向量可以简单地连接相应的帧特征,并在此基础上学习基于注意力的表示。通过这种方式,创建了一个额外的训练数据集,其中是生成的视频的数量

  表一:THUMOS14和ActivityNet(1.2和1.3)上的动作识别结果比较。

  为了正确识别生成视频中的动作和背景,对动作间重组模块进行了优化,分类损失类似于等式(3),如下所示。

  动作间重组有利于以弱监督学习方式进行表征学习。一方面,通过生成额外的视频级别标记视频,可以有效地扩展训练数据集,同时根据数据分布自适应生成,可以自然地解决数据不平衡的问题。另一方面,动作间动作重组在每个生成的视频中引入了更多的变化,并提供了一个更具挑战性的辅助训练数据集,以形成一个更健壮的注意力模型。

D.全局和局部对抗性训练

  在每段未经clip的视频中,动作和背景片段在视觉和运动方面都有一定程度的相似性。因此,动作和背景很容易混淆,从而影响定位性能。最近的研究表明,对抗性训练通过在输入中加入小扰动,可以有效地增强模型对无关噪声的耐受性。为了进一步提高分类模块的识别能力,我们开发了全局-局部对抗训练方案,以实现鲁棒的学习性能。

  具体而言,全局对抗训练侧重于视频级别预测的稳健性,通过允许扰动等式(3)中的分类损失中的视频级别动作和背景特征向量,以及视频级别标签构建等式如下。

  其中,δa和δb分别是对xa和xb施加的扰动。maxδ Lce(·)找到使损失函数最大化的扰动,并且最有可能欺骗分类器。全局对抗性训练鼓励了视频级预测和监督在扰动下的一致性,使模型不受不相关内容的影响。

  与全局计划不同,局部对抗性训练侧重于片段,而不是整个视频。它的目标是通过最大化相邻动作和背景之间的区别来优化动作背景分离。形式上,对于动作段va[si,ei]∈V,相邻的背景段为vb[ei−1,si]和vb[ei,si+1]。局部对抗性训练鼓励对每个相邻动作背景对进行不同的预测,其表述如下。

  注意,对于所有片段,我们使用等式(1)中的动作表示法进行统一比较。

  直接计算使损失函数最大化的δ是不可行的。在本文中,我们遵循快速梯度符号法(FGSM)获得如下扰动。

  其中,为预定义的超参数,f(x)为关于x的损失函数,即f(·)=Lce(·)为等式(11)和f(·)=−Lce(·)为等式 (12).

  全局-局部对抗性训练损失可定义为:

 

  最后,我们得出了ActShufNet的整体损失。

  在训练阶段,通过最小化等式(15)中的总体损失来优化ActShufNet。在测试阶段,训练好的ActShufNet进行帧级类激活预测,以实现时间定位。

四、 实验

A.数据集和评估指标

  我们根据三个基准,即THUMOS14[43]和ActivityNet的两个发布版本[44],对提出的ActShufNet进行评估。作为一种弱监督方法,ActShufNet只能在训练期间访问视频级别的注释。

  THUMOS14分别包含1010和1574个视频的验证集和测试集。有101个动作类,其中20个类是时序注释的。我们关注20个类的子集,使用200个视频的验证集进行训练,使用213个视频的测试集进行评估。THUMOS14具有挑战性,因为它包含多个动作的视频。

  ActivityNet有两个发布版本,即ActivityNet1.2和ActivityNet1.3。ActivityNet1.2包含100类视频,其中4819个用于训练,2383个用于验证,2480个用于测试。ActivityNet1.3是ActivityNet1.2的扩展,由200个活动课程组成,其中10024个视频用于训练,4926个用于验证,5044个用于测试。由于原始测试集的ground-truth标签被保留,我们采用训练集进行模型训练,采用验证集进行测试。

   表二:THUMOS14上的动作定位结果比较。关于监督程度是分开的。在第一条双水平线上的划分表示完全监督的方法。对于弱监督设置,我们比较了UntrimmedNet(Unt)特征和I3D特征,正如下面两个分区中所示。

  表三:在ActivityNet1.2上的动作定位结果的比较。双水平线上的划分表示完全监督方法,下面是弱监督方法。列平均值表示在IoU阈值0.5:0.05:0.95下的平均mAP。

  评估指标。我们遵循标准评估协议,并报告在不同的联合交叉点(IoU)阈值上的平均精度(mAP)。使用ActivityNet官方代码库[1]提供的基准代码计算结果。

B.实施细节

  我们利用在Kinetics数据集上预训练的双流I3D网络来提取传统的双流特征。

  对于RGB流,我们对224 × 224尺寸执行中心裁剪. 对于光流,我们采用了TVL1光流算法。I3D模型的输入是以每秒16帧的速度采样的16帧(RGB或流)堆栈,以获得两个1024维视频特征。模型参数采用Adam优化器的小批量随机梯度下降法进行优化。RGB和光流的学习速率均设置为1e-4。我们还利用比率为0.5的dropout操作和常见的增强技术,包括水平翻转、裁剪增强等。我们将参数α,β,,η,θ和γ分别设置为1,0.01,0.001,1,0.1和0.1。我们的算法是在PyTorch中实现的。

  表四:在ActivityNet1.3上的动作定位结果的比较。双水平线上的划分表示完全监督方法,下面是弱监督方法。列平均值表示在IoU阈值0.5:0.05:0.95下的平均mAP。

   图3:THUMOS14(a和b)和Activity(c).的定性结果红条表示ground-truth。蓝条表示定位结果。

C.结果

  超参数研究。为了研究通过动作间动作重组增加训练集的效果,我们研究了动作识别和定位结果在THUMOS14上关于生成的视频数量上的变化。如图4所示,性能持续提高,直到2到3倍的辅助训练视频被利用,然后降低。因此,在接下来的实验中,我们将训练集扩展了3倍。

  动作识别。我们将ActShufNet的动作识别性能与最先进的方法进行了比较。如表一所示,ActShufNet在所有三个基准上都显著优于其大多数竞争对手。一个例外是ActShufNet在ActivityNet1.3上仅略高于PreTrimNet[8]。然而,值得注意的是,PreTrimNet基于具有三种流特征的细粒度时空分割,因此比ActShufNet复杂得多。

 

  图4:THUMOS14上关于通过动作间重组生成的视频数量的动作识别(左)和定位(右)结果。。“*X”是指训练视频原始数量的*倍。

   表五:ActShufNet采用不同实现方式在THUMOS14上的动作定位结果比较。

  我们还在表三中评估了激活net1.2上的ActShefNet。我们看到,我们的方法优于所有其他弱监督的方法。此外,尽管使用了生成模型(即cVAE),我们的算法在所有IoU阈值上都优于DGAM。在ActivityNet1.3上的实验结果如表四所示,以与更多的方法进行比较。我们的模型与平均mAP优于所有弱监督方法,遵循完全监督的

  消融研究。为了验证关键组件的有效性,我们比较了ActShufNet的完整实现和它的没有等式(15)中一些损失的简化版本,表V总结了THUMOS14的动作定位结果。我们观察到,每个组件都是实现准确结果必不可少的,缺少任何组件都会导致显著的性能下降。我们进一步举例说明了THUMOS14((a)和(b))和ActivityNet1上的时间动作定位。3((c)),如图3所示。由于ActivityNet 1.3是1.2的一个扩展版本,因此我们只将1.3版本的结果可视化。可视化结果包括(a)包含两个动作类的视频,(b)持续时间短的动作,以及(c)持续时间长的动作。一般来说,视频中的多个动作似乎相似,容易受到边界噪声的影响。在案例(a)中,两个板球保龄球和板球铅球的动作在时间轴上有重叠部分,我们的方法也可以区分动作。在案例(b)中,有持续时间很短的动作,动作发生得很快,我们的方法可以捕捉关键动作帧。在案例(c)中,视频包含一个完整的跳高动作,在ground-truth中持续很长时间,我们的方法还可以跟踪和定位动作。如我们所见,该方法是一种有效的指示器,能够在不同情况下定位未修剪视频中感兴趣的动作。

五、结论

  在本文中,我们提出了一种新的自增强框架,即ActShufNet,用于视频级弱监控的未clip视频中的动作定位。我们不把未经修剪的视频作为一个整体,而是把重点放在从初步分割得到的子视频上。在分析动作的顺序敏感和位置不敏感特征的基础上,设计了一种具有动作内/动作间重组的双分支网络结构。前者的目的是通过内部视频顺序重组来增强模型的表示性,而后者通过重组现有的动作子视频来生成新的视频来增强训练集。为了保证模型对无关噪声的鲁棒性,进一步提出了全局-局部对抗训练方案。正如在三个具有挑战性的未clip视频数据集上所展示的那样,ActShufNet比最先进的弱监督方法具有更高的性能,甚至可以与一些完全监督的方法相媲美。

 

posted @ 2022-04-02 16:20  Lhiker  阅读(158)  评论(0)    收藏  举报