Distribution-Aware Coordinate Representation for Human Pose Estimation

一. 论文简介

设计gaussian heatmap的后处理，获得更精确的位置坐标

主要做的贡献如下（可能之前有人已提出）：

encode使用non-bias生成heatmap

decode使用gaussian函数梯度求取

二. 模块详解

2.1 整体结构介绍

论文思想比较简单，整体进行概括

编码部分不进行说明，现在都是这样做的。
解码部分是此论文核心

最原始的做法是直接argmax即可，以下是部分论文进行改进的，\(m\) 是最大值点，\(s\) 是第二大值点，然后进行加权得到最终位置 \(p\)

改进后看下图

生成label的时候我们直接把每个点强制进行高斯分布形成heatmap，如果\(center=(15.6,15.6)\)，那么生成的图\(center=(16,16)=0.999\)

直接进行找最大值的后果（理想情况），获得坐标\(center=(16,16)\)

如何进行拟合到原始坐标？

假设预测的图符合高斯分布（理想情况），那么最大值点梯度为0，我们可以使用这两个条件进行反向求解，其中 \(\sigma\) 是已知的（生成label相同），直接聚类拟合即可。

这种方式计算量太大，不利于后处理？

先找到当前的最大值坐标，假设为 \(m\) 点，设实际的中心点为 \(u\) ，将二维高斯按照泰勒展开，得到下下图公式\((7)\)，\(u\) 点导数为0得到公式\((6)\)，那么我们可以将公式\((7)\)求导数化解为公式\((9)\) ，其中公式\((8)\)为数字图像的二阶倒数（hessian矩阵）。