4月30日
P-Net网络
P-Net的主要目的是为了生成一些候选框,我们通过使用P-Net网络,对图像金字塔图像上不同尺度下的图像的每一个12×1212×12区域都做一个人脸检测(实际上在使用卷积网络实现时,一般会把一张h×wh×w的图像送入P-Net中,最终得到的特征图每一点都对应着一个大小为12×1212×12的感受野,但是并没有遍历全一张图像每一个12×1212×12的图像)。
P-Net的输入是一个12×12×312×12×3的RGB图像,在训练的时候,该网络要判断这个12×1212×12的图像中是否存在人脸,并且给出人脸框的回归和人脸关键点定位;
在测试的时候输出只有NN个边界框的4个坐标信息和score,当然这4个坐标信息已经使用网络的人脸框回归进行校正过了,score可以看做是分类的输出(即人脸的概率):

- 网络的第一部分输出是用来判断该图像是否包含人脸,输出向量大小为1×1×21×1×2,也就是两个值,即图像是人脸的概率和图像不是人脸的概率。这两个值加起来严格等于1,之所以使用两个值来表示,是为了方便定义交叉熵损失函数。
- 网络的第二部分给出框的精确位置,一般称为框回归。P-Net输入的12×1212×12的图像块可能并不是完美的人脸框的位置,如有的时候人脸并不正好为方形,有可能12×1212×12的图像偏左或偏右,因此需要输出当前框位置相对完美的人脸框位置的偏移。这个偏移大小为1×1×41×1×4,即表示框左上角的横坐标的相对偏移,框左上角的纵坐标的相对偏移、框的宽度的误差、框的高度的误差。
- 网络的第三部分给出人脸的5个关键点的位置。5个关键点分别对应着左眼的位置、右眼的位置、鼻子的位置、左嘴巴的位置、右嘴巴的位置。每个关键点需要两维来表示,因此输出是向量大小为1×1×101×1×10。
浙公网安备 33010602011771号