【论文阅读笔记】【Hand Pose Estimation-Interacting Hand】 Interacting Attention Graph for Single Image Two-Hand Reconstruction

CVPR 2022 (Oral)

读论文思考的问题

  1. 论文试图解决什么问题?写作背景是什么?

    问题:

    • 如何将图卷积神经网络(GCN)结构应用到双手交互识别上,且能很好地解决双手的遮挡、相似和交互的问题?

    背景:

    • 双手识别的挑战:1. 严重的相互遮挡,双手形状类似。2. 难以有效地建模交互的上下文信息

    • 稀疏的局部图像特征(heatmap 等)对于解决遮挡问题可能不是很有用,且难以建模 dense interaction context

    • 现有的 GCN 结构在双手识别上应用得不是很好

  2. 文章提出了什么样的解决方法?

    • 提出了基于 GCN 的 IntagHand 模型,使用一种 corase-to-fine 的方式直接回归、修正出每个顶点的坐标

    • 提出了 2 个基于 attention 的模块,对双手的问题进行建模

      1. PIFA:对 vertex feature 和 patched image feature 做 alignment,为每个节点提供图片的全局信息

      2. CHA:对双手的 vertex feature 做 cross-attention,缓解双手的相互遮挡问题

    • 通过辅助任务(手部分割、节点预测等),提取出对手部信息和双手上下文敏感的图像特征

  3. 你觉得解决方法的关键之处在哪里?

    • 网络的节点特征有和全局的图像特征做交互,且网络对双手的节点特征做了显式的交互建模,这些都对缓解双手的交互、遮挡问题起到了不小的作用
  4. 这个解决方法的局限性在哪里?有没有更好的解决方法?

    • 只用了 GCN,完全没有用 MANO,这可能会导致网络预测的结果不稳定(from MeMaHand)

    • 生成的双手 mesh 可能存在交互问题(穿模)

    • 双手交互针对的是所有的节点特征,这样会不会带来一些冗余的计算?(比如一些离得特别远的节点就没有必要计算)

  5. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?这些实验你觉得有效吗?

    实验:

    1. 在 InterHand2.6M 上和其他方法的对比(MPJPE, MPVPE, PCK curve)

    2. 消融实验

      1. 有无 CHA

      2. 有无 PIFA

      3. PIFA 是否运用不同分辨率的特征

要点

  1. PIFA 中,每一个 block 用到的 patched image feature 的分辨率是不一样的(8×8,16×16,32×32)
posted @ 2024-09-20 17:20  PanSTARRS  阅读(48)  评论(0)    收藏  举报