【论文阅读笔记】【SAM相关】 Segment Anything in High Quality

写这个系列的文章主要是因为作者的zotero配额不够用了,为了避免电脑突然死机之类的意外情况导致zotero笔记全部没掉,特地将每篇论文的笔记都粘贴在这里留作备份。

读论文时思考的问题

  1. 论文试图解决什么问题?

    • SAM割出来的mask在某些情况下质量很差(粗粒度、错误预测等等)。

    • 如何高效地提高SAM割出来的mask的质量,且不影响SAM的原有模型设计、效率和zero-shot的性能等

  2. 文章提出了什么样的解决方法?

    • 往SAM中加入一个HQ Output Token,负责高质量mask的分割

    • token跟新得到的特征图做点乘,新得到的特征图通过feature fusion的方式得到,包括 local, global 和 mask features

    • 建立了一个高质量的分割数据集用于模型训练

  3. 这个解决方法的局限性在哪里?有没有更好的解决方法?

  4. 文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)这些实验你觉得有效吗?

问题:

  1. 为什么SAM的mask在一些情况下质量会比较低?

  2. 如何解决?从什么地方获取的灵感

  3. 明明COCO的mask质量就不好,还要在COCO上评估,不是有点打脸吗

关注点

  • high-quality

  • zero-shot capability

要点

  1. 不对SAM进行大幅度修改,而是使用  learnable HQ-Output Token,输入到SAM的 mask decoder 中;这个是在一个  refined feature set 上操作的
posted @ 2023-10-26 10:22  PanSTARRS  阅读(107)  评论(0)    收藏  举报