Bounding-box 回归

R-CNN系列均训练了Bounding-box回归器来对窗口进行校正,其目标是学习一种转换关系将预测得到的窗口P映射为真实窗口G(Ground truth).

box regression

变换方式

可以通过简单的仿射变换以及指数变换将当前预测出的Bounding-box P向Ground truth纠正:

\begin{matrix} (仿射) & {\begin{cases} \hat{G_{x}} = P_{w} d_{x} (P) + P_{x} \\ \hat{G_{y}} = P_{h} d_{y} (P) + P_{y} \end{cases} \end{matrix}

\begin{matrix} (尺度缩放) & {\begin{cases} \hat{G_{w}} = P_{w} e^{d_{w} (P)} \\ \hat{G_{h}} = P_{h} e^{d_{h} (P)} \end{cases} \end{matrix}

其中(x,y)是区域的中心点坐标,(w,h)是宽和高.
注意：只有当Proposal和Ground Truth比较接近时（线性问题），我们才能将其作为训练样本训练我们的线性回归模型.RCNN计算预测的Proposal与多个Ground Truth的IoU,如果没有任何重叠(IoU=0),则忽略这个Proposal不加入训练;将最大IoU对应的窗口作为Proposal"最近"的Ground Truth,如果此最大的IoU小于阈值(如0.6)也忽略掉.

通过上述 $\hat{G} - P$ 公式可计算出需要学习的目标target：

{\begin{cases} t_{x} = (G_{x} - P_{x}) / P_{w} \\ t_{y} = (G_{y} - P_{y}) / P_{h} \\ t_{w} = \log (G_{w} / P_{w}) \\ t_{h} = \log (G_{h} / P_{h}) \end{cases}

带L2正则项的(ridge regression)目标函数为:

w_{*} = {argmin}_{{\hat{w}}_{*}} \sum_{i}^{N} (t_{*}^{i} - s_{*}^{i})^{2} + λ ‖ {\hat{w}}_{*} ‖^{2}

其中 $s_{*}^{i} = {\hat{w}}_{*}^{T} ϕ (P^{i})$ ,而 $w_{*}$ 是可学习的参数, $ϕ$ 是CNN中某一层的特征.
目标函数除了计算差方和的方式还可以是smooth L1.

加旋转角度

对于船只等目标，通常是长条形且在图片中呈倾斜状态，对其进行一定程度的旋转可能能取得更好的效果。因此可以同时在训练集、预测值、损失函数中加入旋转角度。参考论文"A High Resolution Optical Satellite Image Dataset for Ship Recognition and Some New Baselines" (ICPRAM 2017，Zikun Liu，Yiping Yang),"Rotated Region Based CNN for Ship Detection"(Zikun Liu，ICIP 2017)

在预测的proposal中加入旋转角度 $θ = P_{a}$ ，得到：