论文：19.5.8-Convolutional Mesh Regression for Single-Image Human Shape Reconstruction

论文信息：

　　地址：https://arxiv.org/abs/1905.03244

时间：2019.05.08

　　代码：有

一、摘要

　　本文提出了一种从单张图像上估计3D人体姿态和形状的方法。先前的一些工作考虑了人体的参数模型SMPL，并尝试回归模型参数。但与基于姿态估计的非参数解决方案相比，这些工作的性能不佳。在本文中，我们建议放宽对模型参数空间的依赖。我们仍然保留SMPL模板网格的拓扑，但是我们没有预测模型参数，而是直接回归网格顶点的3D位置。对于典型的网络而言，这是一项繁重的任务，但是我们的关键思路是，使用GraphCNN可以使回归变得更加容易。这种架构使我们能够在网络中显式编码模板网格结构，并利用网格必须提供的空间局部性。将从图像提取到的特征附加到网格顶点，并且Graph-CNN负责在网格结构上处理它们，而每个顶点的回归目标是其3D位置。恢复了网格的完整3D几何形状后，如果我们仍然需要特定的模型参数化，则可以可靠地从顶点位置进行回归。通过在网格顶点上附加不同类型的特征，我们证明了我们提出的基于图的网格回归的灵活性和有效性。在所有情况下，我们都依靠模型参数回归胜过可比较的基准，同时我们还获得了基于模型的姿势估计方法中的最新结果。

二、介绍

　　基于优化的方法。[16,SMPLify]，[17,SMPLify改进]，[18,文献49]等方法，为单目姿势和形状恢复提供了最可靠的解决方案。然而，存在缓慢的运行速度、对初始化的依赖以及局部极小值等问题。

　　基于迭代的方法。[18,HMR],[18,NBF],[文献31]，[文献39]，[文献43]等方法，直接从图像中回归姿势和形状参数。这些方案大多数都是从输入的角度进行研究，比如直接输入图像，输入关键点坐标，输入关键点坐标和人体轮廓，或者语义分割图。作者认为，这种回归姿态和形状参数空间的方法可能会限制性能的提高，一是因为SMPL参数空间并没有对手部动作和面部建模，二是由于姿态参数(pose)一般是用轴角、旋转矩阵或四元数表示，这就会遇到周期性，局部最小值或者不连续的问题。

　　非参数方法。[文献44]，[文献12]使用体素重建的方法。作者认为这些方法的主要缺点是即使他们精确地恢复了人体的体素模型，也不会捕获或者很少捕获到语义信息，也就是说如果想把恢复的体素模型拟合到SMPL人体模型上，会非常困难。相反，本文保留了SMPL网络拓扑，利用网络输出的顶点，可以轻松回归SMPL模型的参数。

三、网络框架