object as point阅读笔记

object as point阅读笔记

这篇文章做了啥

作者的主要动机是，绝大多数的object detectors都几近枚举大量的潜在的物体locations并且对他们进行分类。这种方式是非常浪费的，不足够的，以及需要额外的后处理。在这篇文章中，我们采用了一种不一样的方法。作者将物体建模为一个点，这个点是其bbx的中心点。作者是使用关键点估计的方法来找到这个中心点，并且回归其他的物体特性，比如size或者是3D location，方向甚至是pose。

作者提出来的这种方法，centernet是一个end2end的，可微分的，简单且快速，甚至比基于bbx的detectors还要快。centernet达到了最佳的speed-accuracy trade-off 在coco数据集上，

比如AP达到28.1%,则帧率为142FPS，37.4%的AP，帧率能在52，以及更高的45.1的AP，1.4FPS的帧率。

作者使用同样的方法来在KITTI数据集中估计3D bbx，或者是COCO 的keypoint检测数据集上，同样的能比其他更复杂的keypoint检测算法达到更高的精度。

方法初步

假设输入的图片为$I \in R^{W \times H \times 3}$, 作者的目标是产生一个关键点heatmap $\hat{Y} \in[0,1]^{\frac{W}{R} \times \frac{H}{R} \times C}$, 其中$R$是stride，C表示有多少个keypoint type,如果是人体姿态估计的话，则$C=17$，如果是物体检测的话，则$C=80$。作者默认$R=4$。如果一个prediction $\hat{Y}_{x, y, c}=1$, 则对应为检测到的关键点，如果$\hat{Y}_{x, y, c}=0$，则为背景。我们使用一系列的不同的全卷积的encoder-decoder的网络结构来从一个image $I$里面来预测 $\hat{Y}$，网络结构主要包括stacked hourglass network, 上卷积的残差网络，以及DLA模块。

作者follow Law和Deng的方法来训练keypoint prediction network。对于一个ground truth的keypoint $p \in \mathcal{R}^{2}$，作者先做一个低分辨率的近似，来得到等效的点$\tilde{p}=\left\lfloor\frac{p}{R}\right\rfloor$, 然后，作者将所有的gt的点都放到一个heatmap $Y \in[0,1]^{\frac{W}{R} \times \frac{H}{R} \times C}$ , 其中

\[Y_{x y c}=\exp \left(-\frac{\left(x-\tilde{p}_{x}\right)^{2}+\left(y-\tilde{p}_{y}\right)^{2}}{2 \sigma_{p}^{2}}\right) \]

而，$\sigma_p$为随着物体尺寸而改变的物体的方差，如果同一类的两个高斯重叠的话，作者取element-wise maximum。训练的目标使用penalty-reduced pixel-wise logistic regression with focal loss:

\[L_{k}=\frac{-1}{N} \sum_{x y c}\left\{\begin{array}{cl} \left(1-\hat{Y}_{x y c}\right)^{\alpha} \log \left(\hat{Y}_{x y c}\right) & \text { if } Y_{x y c}=1 \\ \left(1-Y_{x y c}\right)^{\beta}\left(\hat{Y}_{x y c}\right)^{\alpha} & \\ \log \left(1-\hat{Y}_{x y c}\right) & \text { otherwise } \end{array}\right. \]

其中$\alpha$和$\beta$分别是focal loss的超参数。$N$表示图片中有多少keypoints.

为了能够恢复通过output stride引入的量化误差，作者对每一个中心点都额外的预测了一个local offset

\[\hat{O} \in \mathcal{R}^{\frac{W}{R} \times \frac{H^{\prime}}{R} \times 2} \]

所有的classes c都共享一个相同的offset prediction，offset使用L1 loss进行训练

\[L_{o f f}=\frac{1}{N} \sum_{p}\left|\hat{O}_{\tilde{p}}-\left(\frac{p}{R}-\tilde{p}\right)\right| \]

这个监督只在locations $\tilde{p}$上进行约束，其他的location都会被忽略。

Objects as Points

让$\left(x_{1}^{(k)}, y_{1}^{(k)}, x_{2}^{(k)}, y_{2}^{(k)}\right)$为物体$k$，类别$c_k$的的bbx。作者使用他们的keypoint estimator $\hat{Y}$，来预测所有的中心点，除此之外还会预测物体$k$的尺寸$s_{k}=\left(x_{2}^{(k)}-x_{1}^{(k)}, y_{2}^{(k)}-y_{1}^{(k)}\right)$。为了减少计算压力，作者对所有的物体种类都使用单个size predictor $\hat{S} \in \mathcal{R}^{\frac{W}{R} \times \frac{H}{R} \times 2}$. 同时作者使用了L1 loss，定义如下

\[L_{\text {size }}=\frac{1}{N} \sum_{k=1}^{N}\left|\hat{S}_{p_{k}}-s_{k}\right| \]

总共的训练的loss定义如下

\[L_{\text {det }}=L_{k}+\lambda_{\text {size }} L_{\text {size }}+\lambda_{\text {of } f} L_{\text {off }} \]

作者选取$\lambda_{size} = 0.1$ 和 $\lambda_{off}=1$。

作者只选取一个网络来预测关键点 $\hat{Y}, \text { offset } \hat{O}, \text { and size } \hat{S}$。所以通道一共是$C+4$个，每个位置的输出都是$C+4$个预测结果。

在验证阶段，我们首先提取heatmap的peaks。然后检测所有的，pixel value大于其周围8个值的那些value，然后保存100个peak。假设$\hat{\mathcal{P}}_{c}$是对C类，n个检测到的中心点的集合，可以表述为$\hat{\mathcal{P}}=\left\{\left(\hat{x}_{i}, \hat{y}_{i}\right)\right\}_{i=1}^{n}$。作者使用key point values $\hat{Y}_{x_{i} y_{i} c}$作为检测的confidence的度量.对于预测的bbx，可以表示为

\[\begin{array}{l} \left(\hat{x}_{i}+\delta \hat{x}_{i}-\hat{w}_{i} / 2, \quad \hat{y}_{i}+\delta \hat{y}_{i}-\hat{h}_{i} / 2\right. \\ \left.\hat{x}_{i}+\delta \hat{x}_{i}+\hat{w}_{i} / 2, \quad \hat{y}_{i}+\delta \hat{y}_{i}+\hat{h}_{i} / 2\right) \end{array} \]

上述公式包含位置的偏差，以及预测得到的长宽。从关键点估计的所有的输出都能够被直接处理，而不需要IoU-based的NMS或者是其他的后处理。Peak keypoint extraction其实可以看做是NMS的一种替代方案，这种方案可以直接通过$3*3$的max pooling来实现。

人体姿态估计

人体姿态估计涉及到对每一个人实体，估计$k$个2D的人体关节点。对于coco而言，$k=17$。作者将pose视作中心点的$k*2$维度特性。作者直接使用l1 loss回归joint offsets (in pixels) $\hat{J} \in \mathcal{R}^{\frac{W}{R} \times \frac{H}{R} \times k \times 2}$。

作者忽视看不见的节点。为了更进一步refine这种keypoints, 作者进一步估计$k$个human关节的heatmap $\hat{\Phi} \in \mathcal{R}^{\frac{W}{R} \times \frac{H}{R} \times k}$，使用的方法是标准的bottom-up的multi-human pose estimation方法。

这里有一个疑问是：作者说的是使用multi-human pose estimation，并且引用了一些文献，我的问题是，这些文献是根据已经检测到的关键点来进行后期的姿态估计吗？

作者还说，作者测center offset是用作一个group的cue。通过把每一个keypoint分配给最近的person instance。特别地，假设$(\hat{x}, \hat{y})$为检测到的中心点，我们首先regress 所有的joint locations

\[l_{j}=(\hat{x}, \hat{y})+\hat{J}_{\hat{x} \hat{y} j} \text { for } j \in 1 \ldots k \]

然后作对于所有的joint type $j$ 从对应的heatmap $\hat{\Phi} \ldots j $ 提取了所有的关键点的位置$L_{j}=\left\{\tilde{l}_{j i}\right\}_{i=1}^{n_{j}}$. 然后作者对每一个regressed的location $l_j$ 福一个它最近的detedted keypoint $\arg \min _{l \in L_{j}}\left(l-l_{j}\right)^{2}$。

posted on 2021-05-26 14:05 YongjieShi 阅读(162) 评论(0) 收藏举报

刷新页面返回顶部

YongjieShi