A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action Localization

0. 前言

相关资料：
- arxiv
- github
- 论文解读
论文基本信息：

领域：时序行为检测
作者单位：伦斯勒理工学院，人工智能实验室
发表时间：AAAI 2021（2021.1）

1.摘要

　　由于训练视频中没有ground-truth时序动作定位，弱监督时序动作定位是一项具有挑战性的视觉任务。由于训练期间只有视频级别的监控，大多数现有方法都依赖于多示例学习（MIL）框架来预测视频中每个动作类别的开始和结束帧。然而，现有的基于MIL的方法有一个主要局限性，即只捕获动作中最具辨别力的帧，而忽略活动的全部范围。此外，这些方法不能有效地对背景活动进行建模，这在定位前景活动方面起着重要作用。在本文中，我们提出了一个名为HAM-Net的新框架，该框架具有一种混合注意力机制，包括时序soft attentions、semi-soft attentions和hard attentions来解决这些问题。我们的时序soft attention模块由分类模块中的一个辅助背景类引导，通过为每个视频片段引入一个“动作性”分数来建模背景活动。此外，我们的时序semi-soft attention模块和hard attentions模块计算每个视频片段的两个注意力分数，有助于将注意力集中在一个动作中辨别力较弱的帧上，以捕捉完整的动作边界。我们提出的方法与最近的SOTA相比，在THUMOS14数据集上，当IoU阈值为0.5时取得了至少2.2% mAP的提升，在ActivityNet1.2数据集上，当IoU阈值为0.75时取得了至少1.3% mAP的提升。代码可在以下网址找到：https://github.com/asrafulashiq/hamnet.

2.介绍

　　时序动作定位是指预测视频中所有动作示例的开始和结束时序的任务。在完全监督的时序动作定位方面取得了显著进展（Tran等人，2020年；赵等人，2017年；赵等人，2018年；林等人，2018年；徐等人，2020年）。然而，在视频数据集中注释所有动作示例的精确时序范围是昂贵、耗时且容易出错的。相反，弱监督时序动作定位（WTAL）可以大大简化数据收集和注释成本。

　　WTAL的目标是在训练阶段，只给视频级别的类别标签，对视频中的所有动作示例进行定位和分类。大多数现有的WTAL方法依赖于多示例学习（MIL）范式。在这个范例中，视频由几个片段组成；计算片段级别的类分数，通常称为类激活序列（CAS），然后时序聚合以获得视频级别的类分数。行动建议是通过对片段级别的类分数设置阈值来生成的。然而，这个框架有一个主要问题：它不一定能捕获动作示例的全部范围。当执行训练以最小化视频级别的分类损失时，网络会预测动作的高区分度部分具有较高的CAS值，而忽略不太能区分的部分。例如，一个动作可能包括几个子动作（Hou、Sukthankar和Shah 2017）。在MIL范例中，只会检测到特定的子动作，而忽略动作的其他部分。

　　图1：现有的MIL框架不一定能捕获动作示例的全部范围。在这个潜水活动的例子中，（a）显示了ground-truth定位，以及（b）显示了基于MIL的WTAL框架的预测。MIL框架只捕捉潜水活动中最具辨别力的部分，忽略了整个动作的开始和结束部分。

　　图1给出了一个潜水活动的示例。我们观察到，MIL框架只捕捉到整个潜水活动中最具辨别力的位置。仅捕获动作最独特的部分足以产生高视频级分类精度，但不一定会产生良好的时序定位性能。现有框架的另一个问题是如何有效地对背景活动进行建模，从而使背景帧不包含在时序定位预测中。先前的研究表明，背景活动在行动定位中起着重要的作用。在不区分背景帧和前景帧的情况下，网络可能会包括背景帧以最小化前景分类损失，从而导致许多假阳性定位预测。

　　在本文中，我们提出了一个新的WTAL框架HAM-Net，该框架采用混合注意力机制来解决上述问题。注意力机制已成功应用于深度学习。HAM Net产生软、半软和hard attentions，以检测动作示例的整个时序跨度，并对背景活动进行建模，如图2所示。

　　我们的框架包括（1）一个分类分支，用于预测包括背景活动在内的所有动作示例的类激活分数；（2）一个注意力分支，用于预测视频片段的“动作性”分数。片段级的类激活分数也由三个片段级的注意力分数调节，并暂时合并以产生视频级别的类分数。

　　为了捕捉完整的动作示例，我们删除了视频中更具辨别力的部分，并将注意力集中在不太具辨别力的部分。我们通过计算视频中所有片段的semi-soft attention分数和hard attentions分数来实现这一点。semi-soft attention分数通过将零值分配给soft attention分数大于阈值的片段来去除视频中更具辨别力的部分，而其他部分的分数保持与soft attention分数相同。由semi-soft attention引导的视频级别分类分数仅包含前景类。另一方面，hard attentions分数会去除视频中更具辨别力的部分，并将较低辨别度部分的注意力分数分配为1，这确保了由这种hard attentions引导的视频级别的类分数同时包含前景类和背景类。semi-soft和hard attentions都鼓励模型学习视频中动作的完整时序边界。

　　总而言之，我们的贡献有三个方面：（1）我们提出了一个新的框架，其中包含一个混合注意力机制，对整个行为进行建模；（2）我们提出了一种背景建模策略，通过使用辅助背景类引导注意力分数；（3）我们在THUMOS14（Jiang等人，2014年）和ActivityNet（Caba Heilbron等人，2015年）数据集上实现了最先进的性能。具体来说，在THUMOS14数据集上，我们在IoU阈值为0.5时的mAP比SOTA提高了2.2%，在ActivityNet1.2数据集上，在IoU阈值为0.75时的mAP比SOTA提高了1.3%。

3.相关工作

　　由于基于深度学习的模型的表现能力和大规模数据集的可用性，视频动作识别领域取得了重大进展。3D卷积网络已经证明了更好的视频表现形式。对于完全监督的时序动作定位，最近的几种方法采用了两阶段策略。

　　然而，之前的大部分方法都没有明确地解决整个动作示例建模的问题。

　　为了建模动作完整性，Hide-and-Seek（Singh和李2017）隐藏部分视频以发现其他相关部分，刘等人（刘，江和王2019）提出了一个多分支网络，其中每个分支预测不同的动作部分。我们的方法有相似的动机，但不同之处在于我们隐藏了视频中最具辨别力的部分，而不是随机部分。

4.提出的方法

4.1 问题表述

　　假设训练视频V包含从活动类中选择的活动示例。视频中可能多次出现特定活动。仅给出视频级别的动作示例。将视频级别的活动示例表示为y∈ {0,1}^n_c，其中，只有当视频中至少有一个第j个动作类的实例时，y_j=1，如果没有第j个活动的实例时，yj=0。请注意，视频中没有提供动作实例的频率和顺序。我们的目标是创建一个模型，该模型仅通过视频级别的动作类进行训练，并在测试时预测活动实例的时序定位。即，对于测试视频，它输出一组元组（t_s、t_e、ψ、c），其中t_s和t_e是一个动作的开始和结束帧，c是动作标签，ψ是活动分数。

　　图2：我们提出的框架HAM-Net的概述。提取RGB和光流帧的片段级特征，并分别将其输入一个分类分支和一个具有混合注意机制的注意力分支。计算三个注意力分数：soft attention、semi-soft attention和hard attentions，并将它们与片段级分类分数相乘，获得注意力引导的类分数。该网络使用四种注意引导损失进行训练：基本分类损失(BCL)、soft attention损失(SAL)、semi-soft attention损失(SSAL)和hard attentions损失(HAL)，以及稀疏性损失和引导损失

4.2片段级分类

　　在我们提出的HAM网络中，如图2所示，对于每个视频，我们首先将其划分为不重叠的片段，以提取片段级特征。使用片段级表示而不是帧级表示允许我们使用现有的3D卷积特征提取器，这些提取器可以有效地建模视频中的时序依赖关系。根据动作识别的双流策略，我们提取RGB和光流的片段级特征，表示为x^RGB_i∈R^D和x^Flow_i∈R^D。我们将两个流连接起来，以获得第i个片段的完整片段特征x_i∈R^2D，从而得到包含外观和运动线索的片段特征的高级表示。

　　为了确定视频中所有活动的时序位置，我们从classification branch计算片段级分类分数，classification branch是一个卷积神经网络，输出类logits，通常称为类激活序列(CAS)。我们将第i个片段的所有类的片段级CAS表示为s_i∈R^c+1。在这里，第c+1个类是背景类。因为我们只有视频级别的类分数作为ground-truth，所以我们需要将片段级别的分数合并以获得视频级别的类分数。文献中有几种汇集策略可以从片段级分数中获得视频级分数。在我们的设置中，我们采用了top-k策略。具体而言，时序聚合是通过聚合每个类的时序维度的top-k个值来执行的：

　　接下来，我们通过沿类维度应用softmax操作来计算视频级别的类分数：

　　其中j=1,2，…，c+1。基本分类损失计算为ground-truth视频级类分数y与预测分数p之间的交叉熵损失：

　　请注意，每个未修剪的视频都包含一些没有动作发生的背景部分。这些背景部分在分类分支中被建模为一个单独的类。因此，等式3中的ground-truth背景类y_c+1=1。3.这种方法的一个主要问题是背景类不存在负样本，并且模型无法通过仅使用正样本进行优化来学习背景活动。为了克服这个问题，我们在注意力分支中提出了一种混合注意力机制，以进一步探索每个片段的“动作性”得分。

4.3 弱监督的混合注意力机制

　　为了抑制视频中的背景类，我们在几篇弱监督的动作检测论文中加入了一个注意力模块，以根据背景建模策略区分前景和背景动作。目标是使得在没有活动示例（即背景活动）的帧中，每个片段的预测注意力得分较低，而在其他区域则较高。尽管分类分支可以预测片段中背景动作的概率，但出于几个原因，单独的注意力模块更有效地区分前景类和背景类。首先，视频中的大多数动作发生在有高运动线索的区域；注意力分支最初只能从运动特征中检测背景区域。第二，在弱监督的情况下，网络学习两个类（前景和背景）比大量类更简单。

　　soft attention分数 注意力模块的输入是片段级特征x_i，它返回一个前景注意力分数a_i：

　　其中，a_i∈[0,1]，g(·；Θ)是一个带有参数Θ的函数，它设计了两个时间卷积层，卷积层后是一个sigmoid激活层。　　

　　为了创建背景类的负样本，我们将每个类j的片段级类logit（即CAS）s_i(j）与第i个片段的片段级注意力分数a_i相乘，并获得注意力引导的片段级类分数，其中⊗ 是元素级的乘积。s^attn作为一组没有任何背景活动的片段，可以被认为是背景类的负样本。与式1,2类似，我们获得了类标签j的视频级注意力引导类分数：

　　式中j=1,2，…，c+1。请注意，p_j^attn不包含任何背景类，因为背景类已被注意力分数抑制。由p_j^attn，我们计算了soft attention引导损失（SAL）函数

　　在这里y_j^f只包含前景活动，即背景类，因为注意力分数会抑制背景活动。

　　semi-soft attention分数 给定片段级别的类分数和第i个片段的soft attention分数，我们通过将soft attention阈值设定为特定值γ∈[0,1]来计算semi-soft attention分数

　　需要注意的是，semi-soft attention既忽略了最具辨别力的区域，也只关注前景片段；因此，semi-soft attention引导的视频水平类分数将只包含前景活动。这种设计有助于更好地建模背景，如消融实验部分所述。将与半软注意相关的视频级类分数表示为p_j^semi-soft，其中j=1,2，……，c+1我们计算了semi-soft attention损失：

　　其中，y^f是没有背景活动的ground-truth标签，即y_c+1^f=0，因为semi-soft attention抑制了背景片段，同时删除了最具区别性的区域。

　　hard attentions分数 与semi-soft attention相比，hard attentions分数由下式计算：

对于hard attentions分数，我们通过将其与原始的片段级logit s_i(j）相乘，并在等式1和等式2之后时序池化分数，来获得另一组视频级别的类分数。我们获得了hard attentions损失：

　　其中y是具有背景活动的ground-truth标签，即y_c+1=1，因为hard attentions不会抑制背景片段，而是只移除视频中更具辨别力的区域。

　　损失函数 最后，我们使用以下联合损失函数训练我们提出的HAM网络：

　　其中L_spary为稀疏损失、L_guide为引导损失，λ₀、λ₁、λ₂、λ₃、α和β为超参数。

　　稀疏性损失是基于这样一个假设，即一个动作可以从视频片段的稀疏子集中识别出来。稀疏度损失计算为soft attention分数的L1范数：

　　关于导引损失L，我们将soft attention分数a_i作为每个片段的二进制分类分数的形式，其中只有两个类，前景和背景，概率由a_i和1-a_i捕获。因此，1−ai可以被认为是第i个片段包含背景活动的概率。另一方面，背景类也被类激活logits s_i(·）∈R^c+1捕获。为了引导背景类激活跟随背景注意力，我们首先计算特定片段成为背景活动的概率

　　然后添加一个引导损失，以使背景类别概率和背景注意力之间的绝对差异最小化：

4.4 时序动作定位

　　对于时序定位，我们首先丢弃视频级类分数低于特定阈值（在我们的实验中设置为0.1）的类。对于其余的类，我们首先通过对所有片段的soft attention分数设置阈值来丢弃背景片段，然后通过选择剩余片段的一维连接组件来获得class-agnostic的行动建议。将候选动作位置表示为{(t_s，t_e，ψ，c)}，其中t_s是开始时序，t_e是结束时序，ψ是c类的分类分数。我们根据AutoLoc的内外评分计算分类得分。请注意，为了计算特定类的分数，我们使用注意力引导的类lotits s^attn_c，

　　其中ζ是一个超参数，l_m=(t_e−t_s)/4，p^attn_c是类c的视频级分数，s^attn_c(·)是类c的片段级类logits。我们应用不同的阈值来获取行动建议，并移除具有非最大抑制的重叠部分。

5.实验

5.1实验环境

　　数据集 我们在两个流行的动作定位数据集上评估了我们的方法：THUMOS14和ActivityNet1.2。THUMOS14包含200个训练验证视频和213个测试视频，用于测试20个动作类别。这是一个具有挑战性的数据集，每个视频约有15.5个活动片段和71%的背景活动。ActivityNet1.2数据集包含4819个训练视频和2382个测试视频，包含200个动作类。它每个视频包含大约1.5个活动示例（比THUMOS14稀疏10倍）和36%的背景活动。

　　评估指标 对于评估，我们使用标准协议，并报告联合（IoU）阈值上不同交叉点的平均精度（mAP）。ActivityNet提供的评估代码用于计算评估指标。

　　实现细节 我们将视频流采样为RGB和光流的非重叠16帧块。使用TV-L1算法创建流。我们使用Kinetics数据集（Kay et al.2017）上预训练的I3D网络（Carreira和Zisserman 2017）提取RGB和流特征，并将它们连接起来以获得2048维片段级特征。在训练期间，我们为THUMOS14随机抽取500个片段，为ActivityNet随机抽取80个片段，在评估期间，我们抽取所有片段。分类分支被设计为两个时序卷积层，每个时序卷积层的核大小为3，每个时序卷积层后面都有LeakyReLU激活，最后一个线性完全连接层用于预测logits。注意力分支由两个时序卷积层组成，核大小为3，然后是一个sigmoid层，用于预测0到1之间的注意力分数。

　　我们使用学习率为0.00001的Adam优化器，并为THUMOS14和ActivityNet分别训练100和20个epoch。对于THUMOS14，我们为top-k时序池设置λ₀=λ₁=0.8、λ₂=λ₃=0.2、α=β=0.8、γ=0.2和k=50。对于ActivityNet，我们设置α=0.5、β=0.1、λ₀=λ₁=λ₂=λ₃=0.5和k=4，并应用额外的平均池化来对最终的CAS进行后处理。所有超参数都是通过网格搜索确定的。对于动作定位，我们将阈值设置为0.1到0.9，步长为0.05，并执行非最大值抑制以移除重叠片段。

5.2 消融实验

　　我们在THUMOS14数据集上进行了一系列消融实验，以分析我们提出的HAM网络的每个组件的性能贡献。表1显示了我们的方法在不同损失条件下的性能。我们使用“平均映射”作为性能指标，它是不同IoU阈值（0.1:0.1:0.7）的映射值的平均值。前五个实验在没有SSAL或HAL损失的情况下进行训练，也就是说，没有任何时序下降机制，我们称之为“仅限MIL模式”，用这些损失训练的其余实验则表示为“MIL和下降模式”。图3显示了代表性视频上不同实验的定位预测。我们的分析表明，所有损失组件都需要达到最大性能。

　　稀疏性和引导损失的重要性表1表明，稀疏性和引导损失对获得更好的性能都很重要。具体来说，在“仅MIL模式”下，加上稀疏度和引导损失可提供4%的mAP增益，而在“MIL和Drop模式”下，mAP增益为9%，表明这些损失在“MIL和Drop模式”中更为重要。请注意，对于SSAL和HAL，片段的辨别力是通过稀疏性和引导损失学习到的软注意分数来衡量的

　　表1：不同损失函数组合对THUMOS14 mAP定位性能影响的消融研究。这里，AVG mAP表示从IoU阈值0.1到0.7的平均mAP值。在总损失函数中添加L_AL可以将mAP从34.8提高到39.8。

　　图3：不同损失函数对包含跳远活动的视频最终定位的影响的可视化。（a）是ground-truth行动地点。（b）仅代表MIL损失，这预示着许多误报。在（d）中，在添加稀疏性和引导损失后，我们消除了这些误报，但仍然无法捕获完整的时序边界。（e）显示了我们的方法的结果，该方法捕获了完整的行动边界。

　　稀疏和引导损失。在没有稀疏性损失的情况下，大多数soft attention分数仍然接近1，这使得片段擦除策略无效。此外，在没有稀疏性损失的情况下，引导损失本身不会显著提高定位性能（表1中的实验3和实验7）；然而，结合稀疏性损失，它显示出最好的性能改善（表1中的实验5和实验11）。

　　注意力损失的重要性 我们观察到，注意力缺失可以显著提高效果。表1显示，与BCL-only模型相比，仅加入L_SAL 获得了平均6.2%的mAP增益。从表1中的实验9和实验10中，我们可以看到HAL和SSAL分别提高了性能，当我们将它们结合在一起时，我们得到了最好的性能。具体而言，HAL和SSAL的组合在“仅限故障模式”下的性能比最佳分数提高了5%。图5显示了代表性视频中损失有效性的可视化示例。我们可以观察到，MIL-only模型无法捕捉完整动作示例（即跳远）的几个部分。合并注意力损失有助于捕捉整个动作。

　　通过选择阈值删除片段的重要性 为了计算HAL损失和SSAL损失，我们删除了视频中更具辨别力的部分，并对不太具辨别力的部分进行训练，假设关注不太具辨别力的部分将有助于模型学习动作的完整性。为了确认我们的假设，我们创建了两个基线：“ours(random drop)”，在这里我们随机丢弃视频片段，类似于Hide-and-Seek（Singh和李2017）和“ours(inverse drop)”，在这里我们删除那些不太有区别度的部分，而不是擦除最具辨识度的部分。我们在图4a中展示了这些模型之间的性能比较。结果表明，随机删除片段的效果略高于基线，删除识别性较差的部分会降低定位性能。我们的方法比随机删除片段或删除差别较小的片段要好得多，这证明了有选择地删除差别较大的前景片段的有效性。

　　图4：（a）关于通过选择阈值删除片段重要性的研究。其他方法，如随机丢弃或反向选择阈值，效果不佳。（b）关于SSAL和HAL重要性的消融研究。较低的权重会导致模型只学习最有特色的部分，而较高的权重会使模型过于关注不那么有特色的部分。

　　对λ2和λ3进行消融分析 我们设置了λ₂=λ₃=λ。在图4b中，我们分析了λ对性能的影响。请注意力，λ=0表示“仅MIL模式”，其平均mAP为34.8%。增加的值会导致性能改善，直到λ达到0.2，之后我们会观察到性能下降。原因是在训练中，较低的权重并不能有效地结合L_SSAL和L_HAL。相反，权重越高，识别性越差的部分就越重要，这可能会导致模型在每次迭代中忽略更具识别性的区域，从而导致定位性能较差。0.2的最佳值平衡了这两个问题。

5.3 性能与最新技术的比较

　　表2总结了我们提出的HAM网络和最先进的全监督和弱监督TAL方法在THUMOS14数据集上的性能比较

　　我们报告了不同IoU阈值下的mAP分数。”AVG’是IoU 0.1到0.7的平均映射，步长为0.1。由于监管不力，我们提出的HAMNet在所有IoU阈值上都达到了最先进的分数。具体来说，在IoU阈值为0.5的情况下，HAM-Net的mAP得分比当前最佳得分高2.2%。此外，我们的HAM-Net优于一些完全监督的TAL模型，甚至显示出与最近一些完全监督的TAL方法相当的结果。

　　在表3中，我们在ActivityNet1.2数据集上评估了HAM-Net。在HAM-Net1.2的所有指标上都优于其他WTAL方法，验证了我们提出的HAM-Net的有效性。

　　表3：我们的算法与ActivityNet1.2验证集上的其他最新方法的比较。AVG表示从IoU为0.5到0.95的平均映射，增量为0.05。

5.4定性表现

　　我们在图5中展示了一些有代表性的例子。对于每个视频，最上面一行显示示例帧，下一行表示ground-truth定位，“Ours”是我们的预测，“Ours w/o HAL&SSAL”是我们在没有L_HAL和L_SSAL的情况下训练的。图5显示，我们的模型清楚地捕捉到了活动的全部时序范围，而“Ours w/o HAL&SSAL”只关注更具辨别力的片段。

图5：THUMOS14的定性结果。横轴表示时间。在纵轴上，我们依次绘制了没有HAL和SSAL的ground-truth检测、我们的检测分数和检测分数。SSAL和HAL帮助学习一个动作的完整上下文。

6.结论

　　我们提出了一个称为HAM-Net的新框架，用于在训练过程中仅从视频级监控学习时序动作定位。我们引入了一种混合注意力机制，包括soft attention、semi-soft attention和hard attentions，以区分背景帧和前景帧，并分别捕获视频中动作的完整时序边界。我们进行了广泛的分析，以证明我们方法的有效性。我们的方法在THUMOS14和ActivityNet1.2数据集上实现了最先进的性能

7.补充知识

logits（参考）：f(wx+b)之后的输出，没有归一化的输出值，作为logits。将logits进行softmax归一化，得到最后的结果。也可以这么理解：logits与 softmax都属于在输出层的内容，logits = tf.matmul(X, W) + bias 再对logits做归一化处理，就用到了softmax：Y_pred = tf.nn.softmax(logits,name='Y_pred')，可以理解logits ——【batchsize，class_num】是未进入softmax的概率，一般是全连接层的输出，softmax的输入。

时序池化：对于视觉应用来说，池化的更正式名称为空间池化。时间序列应用通常将池化称为时序池化。按照不太正式的说法，池化通常称为下采样或降采样。

AutoLoc：ECCV 2018上的一篇论文，提出一种新奇的视频时序行为检测方法：AutoLoc，它能直接预测每个行为的中心位置和持续时间从而预测出行为边界

posted @ 2022-02-23 19:41 Lhiker 阅读(408) 评论(0) 收藏举报

刷新页面返回顶部

自由方向