MTCNN论文笔记

MTCNN网络解读:

  1. 搭建多层级联的CNN网络,将人脸检测和识别两个任务,使用统一的级联CNN集成在一起,进行解决。
  2. 网络包括三层:
    1.   第一层PNet:通过浅层的CNN网络快速的生成候选框;
    2.        第二层RNet:通过一个更复杂的CNN网络优化人候选框,拒绝大量的非人脸候选框;
    3.       第三层ONet:最后通过一个更加强力的CNN网络去优化这个结果和面部关键点的位置的输出
  3. 网络的特点:
    1.   将人脸检测和识别结合起来,用一个轻量级的网络达到实时监测的性能;
    2. 提出了在线做采样工程去提升性能;
  4. 方法:
    1.   第一层:我们利用完全卷积网络,称为建议网络(P-Net),以类似于[29]的方式获得候选窗口及其边界框回归向量。然后利用估计的边界盒回归向量对候选样本进行校正。之后,我们使用非最大抑制(NMS)来合并高度重叠的候选。
    2. 所有的候选都被送入另一个CNN,称为Refine Network(R-Net),后者进一步拒绝大量的假候选,使用包围盒回归进行校准,NMS候选合并。
    3. 这一阶段类似于第二阶段,但在这一阶段,我们的目标是更详细地描述人脸。特别是,该网络将输出5个面部标志点的坐标。
  5. 可能的性能受限因素:
    1.   一些滤波器缺乏多样性的权重,这可能会限制它们产生有区别的描述。
    2. 与其他多类目标检测和分类任务相比,人脸检测是一个具有挑战性的二值分类任务,因此可能需要较少的滤波器,但需要更多的滤波器。为此,我们减少了滤波器的数目,并将5×5滤波器改为3×3滤波器以减少计算量,同时增加深度以获得更好的性能。
  6. 训练:

   我们利用三个任务来训练我们的CNN检测器:人脸/非人脸分类、人脸框回归和关键点定位。

    1.  人脸分类:该任务为一个2分类问题,对每一个样本使用交叉熵

    其中pi是由网络产生的将样本表示为人脸的概率。yi[det] 属于{0,1}表示基本真实标签。

    1.  边界框的回归:

      对于每个候选窗口,我们预测它与最接近的真实值(即边界框的左上角、高度和宽度)之间的偏移量。学习目标被表述为一个回归问题,我们对每个样本使用欧氏距离作为损失:

      其中yi^表示网络预测的结果,yibox表示真实结果,总共有4个坐标值;

 

    1. 人脸关键点定位:

      和边界框回归任务类似,人脸关键点的检测也是一个回归任务,损失函数用欧氏距离

      

 

posted @ 2020-03-25 11:15  奢侈的恋爱  阅读(111)  评论(0)    收藏  举报