【论文阅读笔记】【Hand Pose Estimation-Interacting Hand】 Interacting Attention Graph for Single Image Two-Hand Reconstruction

CVPR 2022 (Oral)

读论文思考的问题

论文试图解决什么问题？写作背景是什么？

问题：
- 如何将图卷积神经网络（GCN）结构应用到双手交互识别上，且能很好地解决双手的遮挡、相似和交互的问题？
背景：
- 双手识别的挑战：1. 严重的相互遮挡，双手形状类似。2. 难以有效地建模交互的上下文信息
- 稀疏的局部图像特征（heatmap 等）对于解决遮挡问题可能不是很有用，且难以建模 dense interaction context
- 现有的 GCN 结构在双手识别上应用得不是很好
文章提出了什么样的解决方法？
- 提出了基于 GCN 的 IntagHand 模型，使用一种 corase-to-fine 的方式直接回归、修正出每个顶点的坐标
- 提出了 2 个基于 attention 的模块，对双手的问题进行建模
  1. PIFA：对 vertex feature 和 patched image feature 做 alignment，为每个节点提供图片的全局信息
  2. CHA：对双手的 vertex feature 做 cross-attention，缓解双手的相互遮挡问题
- 通过辅助任务（手部分割、节点预测等），提取出对手部信息和双手上下文敏感的图像特征
你觉得解决方法的关键之处在哪里？
- 网络的节点特征有和全局的图像特征做交互，且网络对双手的节点特征做了显式的交互建模，这些都对缓解双手的交互、遮挡问题起到了不小的作用
这个解决方法的局限性在哪里？有没有更好的解决方法？
- 只用了 GCN，完全没有用 MANO，这可能会导致网络预测的结果不稳定（from MeMaHand）
- 生成的双手 mesh 可能存在交互问题（穿模）
- 双手交互针对的是所有的节点特征，这样会不会带来一些冗余的计算？（比如一些离得特别远的节点就没有必要计算）
文章是通过设计什么样的实验来支撑其解决方法的有效性的？这些实验你觉得有效吗？

实验：
1. 在 InterHand2.6M 上和其他方法的对比（MPJPE, MPVPE, PCK curve）
2. 消融实验
  1. 有无 CHA
  2. 有无 PIFA
  3. PIFA 是否运用不同分辨率的特征

要点

PIFA 中，每一个 block 用到的 patched image feature 的分辨率是不一样的（8×8，16×16，32×32）

posted @ 2024-09-20 17:20 PanSTARRS 阅读(48) 评论(0) 收藏举报

刷新页面返回顶部

ywh2000

【论文阅读笔记】【Hand Pose Estimation-Interacting Hand】 Interacting Attention Graph for Single Image Two-Hand Reconstruction

读论文思考的问题

要点

公告