【论文阅读笔记】【Hand Pose Estimation-Interacting Hand】 MeMaHand: Exploiting Mesh-Mano Interaction for Single Image Two-Hand Reconstruction

CVPR 2023

读论文思考的问题

  1. 论文试图解决什么问题?写作背景是什么?

    问题:

    • 如何在双手识别中集成 paramatic (MANO) 和 non-paramatic hand (GCN) representation 方法的优点?

    背景:

    • 基于手部模型 MANO 的方法能够产生合理且稳定的手型,但手部的网格不够细粒度和灵活

    • 基于 GCN 和 Transformer 的方法能够产生细粒度的手部网格,但它们在遇到严重的遮挡问题和挑战性的视角时的鲁棒性不够好

  2. 文章提出了什么样的解决方法?

    • 提出了 MeMaHand 模型,能够同时估计 MANO 参数以及网格顶点的坐标

    • 网络运用了 MMIB 模块,首先用 GCN 来建模顶点特征的局部关系,随后利用 2 层 Transformer,分别对 intra-hand 和 inter-hand 的 MANO 和顶点的特征进行了注意力建模(图像特征也参与其中)

    • 设计了 Mesh Alignment Refinement Module,利用 MMIB 模块对预测的 MANO 参数和顶点坐标进行进一步修正

  3. 你觉得解决方法的关键之处在哪里?

    • 同时预测了两种手部姿势的“模态”,通过 cross-attention 的方式在模态之间进行了交互,使得两种表示方式达到了互补

    • 对 intra-hand 以及 inter-hand 的特征进行了全面的 attention 建模,缓解了双手严重遮挡和交互的问题

    • 像 IntagHand (Li et al.) 一样,在手部特征和图像特征之间也做了alignment,使得对手部的建模能够不断从图片全局中获取信息

  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 感觉 Mesh Alignment Refinement 作用不明显,性能提升不大

    • 在一些严重的遮挡的情形下模型的效果还不是很好

  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?这些实验你觉得有效吗?

    实验:

    1. 在 InterHand2.6M 上和其他方法的对比

    2. 在一些 in-the-wild 的图片上的拓展

    3. 消融实验

      1. 有无 MANO token

      2. Mesh Alignment Refinement

      3. MMIB 模块:是否用 MMIB 来更新 MANO token;是否使用 Mano-to-Mesh attention

      4. 模型是否在辅助任务上训练(分割、2d 预测……)

posted @ 2024-09-21 15:50  PanSTARRS  阅读(233)  评论(0)    收藏  举报