【论文阅读笔记】【SAM相关】 Segment Anything in High Quality
写这个系列的文章主要是因为作者的zotero配额不够用了,为了避免电脑突然死机之类的意外情况导致zotero笔记全部没掉,特地将每篇论文的笔记都粘贴在这里留作备份。
读论文时思考的问题
-
论文试图解决什么问题?
-
SAM割出来的mask在某些情况下质量很差(粗粒度、错误预测等等)。
-
如何高效地提高SAM割出来的mask的质量,且不影响SAM的原有模型设计、效率和zero-shot的性能等
-
-
文章提出了什么样的解决方法?
-
往SAM中加入一个HQ Output Token,负责高质量mask的分割
-
token跟新得到的特征图做点乘,新得到的特征图通过feature fusion的方式得到,包括 local, global 和 mask features
-
建立了一个高质量的分割数据集用于模型训练
-
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?(你说有效就有效吗,我不信)这些实验你觉得有效吗?
问题:
-
为什么SAM的mask在一些情况下质量会比较低?
-
如何解决?从什么地方获取的灵感
-
明明COCO的mask质量就不好,还要在COCO上评估,不是有点打脸吗
关注点
-
high-quality
-
zero-shot capability
要点
- 不对SAM进行大幅度修改,而是使用 learnable HQ-Output Token,输入到SAM的 mask decoder 中;这个是在一个 refined feature set 上操作的

浙公网安备 33010602011771号