摘要:
VisionLAN ICCV 2021 读论文思考的问题 论文试图解决什么问题? 使用语言模型对识别的文本的上下文语义信息进行建模时,会有以下问题:引入额外的计算量;识别的视觉和语言特征很难做一个很好的融合、互补 能否在不使用语言模型的情况下,直接赋予视觉模型一定的语言建模能力? 文章提出了什么样的 阅读全文
posted @ 2023-10-26 10:36
PanSTARRS
阅读(70)
评论(0)
推荐(0)
摘要:
ABINet CVPR 2021 (Oral) 读论文思考的问题 论文试图解决什么问题? 如何对语言的上下文进行建模而不是对视觉特征的上下文信息进行建模 如何在端到端的文本识别模型中更好、更高效地对文本的语言知识进行建模,提升对困难情况的字符识别效果 文章提出了什么样的解决方法? 提出了一个 aut 阅读全文
posted @ 2023-10-26 10:36
PanSTARRS
阅读(117)
评论(0)
推荐(0)
摘要:
SRN CVPR2020 读论文思考的问题 论文试图解决什么问题? 如何利用文本的上下文语义信息来辅助文本识别任务 RNN 能部分利用语义信息,但它的利用方式是串行的,极大地限制了语义信息的帮助,会造成错误累积以及效率缓慢等问题 文章提出了什么样的解决方法? 提出全局语义理解模块(GSRM),通过多 阅读全文
posted @ 2023-10-26 10:35
PanSTARRS
阅读(116)
评论(0)
推荐(0)
摘要:
读论文时思考的问题 论文试图解决什么问题? 如何更好地建立视觉方面的 fundation model 如何建立一个模型,使得其在 没有人类输入信号的情况下(这里主要是 one-shot image)能更好地挖掘SAM的能力,实现相同的语义元素(好像不一定要求是一个实例)的分割(并提取割出来的物体的语 阅读全文
posted @ 2023-10-26 10:29
PanSTARRS
阅读(231)
评论(0)
推荐(1)
摘要:
读论文时思考的问题 论文试图解决什么问题? SAM只能割东西,因此对于某些特殊场景,需要先给SAM一个人工标注的Prompt才能较好地进行分割 能否通过一些修改,让SAM分割出某些user-designed visual concepts【一般是以图片的方式来呈现,如果只有一张图片就不可能训练出一个 阅读全文
posted @ 2023-10-26 10:24
PanSTARRS
阅读(152)
评论(0)
推荐(0)
摘要:
写这个系列的文章主要是因为作者的zotero配额不够用了,为了避免电脑突然死机之类的意外情况导致zotero笔记全部没掉,特地将每篇论文的笔记都粘贴在这里留作备份。 读论文时思考的问题 论文试图解决什么问题? SAM割出来的mask在某些情况下质量很差(粗粒度、错误预测等等)。 如何高效地提高SAM 阅读全文
posted @ 2023-10-26 10:22
PanSTARRS
阅读(110)
评论(0)
推荐(0)

浙公网安备 33010602011771号