文献翻译:High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection

高级语义特征检测:行人检测的新角度

 

Abstract:目标检测通常需要传统的滑窗窗口分类器或者现在深度学习方法中基于锚箱的预测。但是这两种方法都需要复杂的配置。本文中提供了一种新的角度:将目标检测视为高级语义特征检测任务。像边缘、角,斑点以及其他特征检测器一样,所提出的检测器扫描整个图像上的特征点(卷积很适合这样的操作,所以检测器其实就是两个卷积通道)。然而与这些传统的低级特征不同的是,本文提出的检测器用于更高级别的抽象——寻找存在行人的中心点,现在的深度模型已经能够进行这样的高级语义抽象。另外像斑点检测一样,我们也预测行人中心点的尺度,这也是一个直接的卷积。因此,本文中通过卷积将目标检测简化为直接的中心和尺度预测任务。这样,所提出方法的设置就不需要锚。虽然结构简单,在具有挑战性的行人检测基准(benchmarks)上,它提供了具有竞争力的准确性和良好的速度,从而导致一种新的有吸引力的行人检测器。

1.Introduction

   特征检测是计算机视觉中最基本的问题之一,通常被视为低级技术,典型的任务包括边缘检测(例如Canny[4],Sobel[42]),角(或兴趣点)检测(如SUSAN[41],Fast[38]),斑点(或感兴趣区域)检测(例如LoG[25]、DoG[31]、MSER[33])。特征检测对于各种计算机视觉任务至关重要,从图像表示、图像匹配、到3D场景重建等等。

   一般情况下,特征被定义为我们对一张图像的“感兴趣”部分,因此特征检测就是计算图像的抽象信息,然后再每个图像点做出局部决策,无论在该点是否存在给定类型的图像特征。关于图像的抽象信息,随着计算机视觉任务的快速发展,深度卷积神经网络(CNN)被认为具有非常好的能力去学习图像的高级抽象信息,因此,CNN也已经运用于特征检测,甚至在低级特征检测中也表现出很好的效果。最近有一种利用CNN进行边缘检测的趋势,这个极大地促进了该领域的发展。这表明,通过深度卷积可以获得干净连续的边缘,表明CNN比传统的方法具有更强的能力去学习更高层次的自然图像的抽象信息。此功能可能不仅限于低级特征检测、也为高级特征检测开辟了许多其他的可能性。因此,本文以行人检测为例,提出了一种将对象检测作为高级语义特征检测任务的新思路。

   因此,本文以行人检测为例提出了一种将目标检测作为高级语义特征检测任务的新思路。像边缘、角、斑点、以及其他特征检测器,本文提出的检测器扫描整个图像上的特征点,卷积自然是适合进行这样的任务的。不像这些传统的低级特征检测器。本文所提出的检测器用于提取更高级别的抽象信息,也即我们正在寻找存在行人的中心点。而且类似于斑点检测,还预测中心点的尺度。然而考虑到CNN强大的能力,不像传统的斑点检测那样处理图像金字塔来确定尺度,我们在全卷积网络(FCN)上通过一个简单的卷积来预测对象规模。结果,通过卷积将行人检测任务简单地表述为直接的中心和尺度预测任务。该方法的总体思路是基于中心和尺度预测(Center and Scale Prediction,CSP)的检测器,如下图所示。

 

  可以看到整个检测流程的结构很简单,图片输入经过一个CNN提取(还有一些反卷积,合并等操作,后边说)得到特征图,该特征图

分成两路处理,一条用于预测中心点,另一条用于预测尺度.

        对于一般的目标检测,从Viola-Jones探测器的先驱工作开始,它通常需要传统的滑动窗口分类器或基于cnn的方法的基于锚的预测。 这些检测器本质上是局部分类器,用于判断预定义的窗口或者锚是否是对象。但这些方法都需要在窗口或者锚中进行冗长的配置。 一般来说,目标检测是指检测出目标的位置以及目标的大小。 传统方法通过对窗口或锚点的不同尺度的综合判断,将“where”和“how”子问题组合成一个单一的问题。 本文提出的CSP检测器将“where”和“how”子问题分成两个不同的卷积。 这使得检测更加自然,并且没有窗口(windows)和锚(anchor)的设置,大大降低了训练的难度.

      还有另一种研究方法可以激励我们。在此之前,FCN已经在多人姿态估计中得到了应用并取得了成功,该方法首先通过全卷积的响应检测出几个关键点,然后再将关键点分组成为个体的完整姿态。 鉴于此,最近两篇励志的作品,CornerNet [18]和TLL [43]成功地从摆脱了窗口(windows)和 锚(anchor)的困扰,这两篇文章将目标检测转化为关键点检测任务来执行。 虽然关键点匹配需要额外的计算,有时像TLL一样复杂,但FCN的关键点预测激励我们更进一步,实现了基于全卷积的中心和尺度预测的行人检测检测。

      总之,这项工作的主要贡献如下:

     (1). 展示了一种新的可能性,即物体检测可以通过卷积简化为直接的中心和尺度预测任务,绕过基于 anchor 的探测器的限制并摆脱最近基于关键点配对的检测器的复杂后处理。

     (2). 拟议的CSP探测器在两个具有挑战性的行人探测基准,CityPersons [55]和Caltech [8]上实现了最新的最先进性能,它还在最受欢迎的人脸检测基准之一上实现了很好的性能 - WiderFace [51]。

     (3). 当进行交叉数据集评估时,所提出的CSP检测器具有良好的泛化能力。

 

 

 

posted @ 2023-06-09 10:37  蔡蔡的木棉花  阅读(72)  评论(0)    收藏  举报