MTCNN论文笔记
MTCNN网络解读:
- 搭建多层级联的CNN网络,将人脸检测和识别两个任务,使用统一的级联CNN集成在一起,进行解决。
- 网络包括三层:
- 第一层PNet:通过浅层的CNN网络快速的生成候选框;
- 第二层RNet:通过一个更复杂的CNN网络优化人候选框,拒绝大量的非人脸候选框;
- 第三层ONet:最后通过一个更加强力的CNN网络去优化这个结果和面部关键点的位置的输出
- 网络的特点:
- 将人脸检测和识别结合起来,用一个轻量级的网络达到实时监测的性能;
- 提出了在线做采样工程去提升性能;
- 方法:
- 第一层:我们利用完全卷积网络,称为建议网络(P-Net),以类似于[29]的方式获得候选窗口及其边界框回归向量。然后利用估计的边界盒回归向量对候选样本进行校正。之后,我们使用非最大抑制(NMS)来合并高度重叠的候选。
- 所有的候选都被送入另一个CNN,称为Refine Network(R-Net),后者进一步拒绝大量的假候选,使用包围盒回归进行校准,NMS候选合并。
- 这一阶段类似于第二阶段,但在这一阶段,我们的目标是更详细地描述人脸。特别是,该网络将输出5个面部标志点的坐标。
- 可能的性能受限因素:
- 一些滤波器缺乏多样性的权重,这可能会限制它们产生有区别的描述。
- 与其他多类目标检测和分类任务相比,人脸检测是一个具有挑战性的二值分类任务,因此可能需要较少的滤波器,但需要更多的滤波器。为此,我们减少了滤波器的数目,并将5×5滤波器改为3×3滤波器以减少计算量,同时增加深度以获得更好的性能。
- 训练:
我们利用三个任务来训练我们的CNN检测器:人脸/非人脸分类、人脸框回归和关键点定位。
- 人脸分类:该任务为一个2分类问题,对每一个样本使用交叉熵

其中pi是由网络产生的将样本表示为人脸的概率。yi[det] 属于{0,1}表示基本真实标签。
- 边界框的回归:
对于每个候选窗口,我们预测它与最接近的真实值(即边界框的左上角、高度和宽度)之间的偏移量。学习目标被表述为一个回归问题,我们对每个样本使用欧氏距离作为损失:
其中yi^表示网络预测的结果,yibox表示真实结果,总共有4个坐标值;
- 人脸关键点定位:
和边界框回归任务类似,人脸关键点的检测也是一个回归任务,损失函数用欧氏距离


浙公网安备 33010602011771号