摘要: GLIP CVPR 2022 (Oral, Best Paper Finalist) 读论文思考的问题 论文试图解决什么问题?写作背景是什么? 问题: 如何将视觉-语言预训练技术应用在以目标检测为代表的 fine-grained image understanding 上面? 如何在增加训练数据的同 阅读全文
posted @ 2023-12-06 20:12 PanSTARRS 阅读(973) 评论(0) 推荐(0)
摘要: LISTER ICCV 2023 读论文思考的问题 论文试图解决什么问题? 由于长尾效应和错误累积等原因,现有的文本识别模型对于长文本的识别能力较差 如何提高模型对于长度较长的文本的识别能力? 文章提出了什么样的解决方法? 提出了 LISTER 模型,引入了 neighbor matrix 的概念, 阅读全文
posted @ 2023-11-30 11:36 PanSTARRS 阅读(221) 评论(0) 推荐(0)
摘要: ESTextSpotter ICCV 2023 读论文思考的问题 论文试图解决什么问题? 场景文本端到端识别任务中,检测和识别两个任务的协同作用十分关键,然而以往的方法通常用一些十分隐式的方式来体现这种协同作用(shared backbone, shared encoder, shared quer 阅读全文
posted @ 2023-11-23 14:38 PanSTARRS 阅读(275) 评论(0) 推荐(0)
摘要: SuperGlobal ICCV 2023 读论文思考的问题 论文试图解决什么问题? 图片检索方法通常由粗粒度图片检索和精确的结果重排列两个模块组成。人们通常认为图片的 local feature 在结果重排列中是不可或缺的,但对大量的 local feature 的计算需要较高的计算资源和时间 能 阅读全文
posted @ 2023-11-15 19:33 PanSTARRS 阅读(533) 评论(0) 推荐(0)
摘要: 最近有一个在 Linux 系统上利用 wget 命令下载自己账号的 OneDrive 上的大文件的需求。在网上找了许多方法(利用F12之类的)都不是很灵,最后终于探索出了一个非常简单的方法。 方法 通过 360浏览器X 登录OneDrive,进入需要分享的文件界面。 (这里吐槽一下 Chrome 的 阅读全文
posted @ 2023-11-15 11:22 PanSTARRS 阅读(2851) 评论(0) 推荐(0)
摘要: CLIPTER ICCV 2023 读论文思考的问题 论文试图解决什么问题? 现有的文本识别方法只关注于局部截取的文本区域,识别模型并没有利用全图的上下文信息,导致其可能对有挑战性的文本的识别效果较差 能否以某种方式使识别器利用上global feature的信息? 文章提出了什么样的解决方法? 提 阅读全文
posted @ 2023-11-12 15:45 PanSTARRS 阅读(138) 评论(0) 推荐(0)
摘要: PARSeq ECCV 2022 读论文思考的问题 论文试图解决什么问题? 一些文本识别模型会对 semantic 信息建模,从而辅助某些困难情况下的文本识别 传统的 auto-regressive 方式限制了语义信息的传输方向;双向的 auto-regressive 聚合增加了不必要的计算量和复杂 阅读全文
posted @ 2023-11-09 22:16 PanSTARRS 阅读(259) 评论(0) 推荐(0)
摘要: CVPR 2022 读论文思考的问题 论文试图解决什么问题? 一些基于 DETR 的方法在 ICDAR15, MLT17 等文字尺度变化范围较大的数据集上文本检测的效果不佳 DETR 运用的高层特征图难以捕捉小文字的特征,且会引入很多无关的背景噪声,增加了检测的困难程度 即使使用 DETR 的改进模 阅读全文
posted @ 2023-11-07 14:10 PanSTARRS 阅读(141) 评论(0) 推荐(0)
摘要: 读论文思考的问题 论文试图解决什么问题? referring 和 grounding 是图片空间信息理解的两大方面,而以往的模型通常只关注于其中的一个方面 能否根据人类理解图片的能力,将 referring 和 grounding 的能力统一到一个模型中? 如何联合这两个任务?它们能相互促进吗? 如 阅读全文
posted @ 2023-10-27 15:35 PanSTARRS 阅读(1148) 评论(0) 推荐(0)
摘要: VisionLAN ICCV 2021 读论文思考的问题 论文试图解决什么问题? 使用语言模型对识别的文本的上下文语义信息进行建模时,会有以下问题:引入额外的计算量;识别的视觉和语言特征很难做一个很好的融合、互补 能否在不使用语言模型的情况下,直接赋予视觉模型一定的语言建模能力? 文章提出了什么样的 阅读全文
posted @ 2023-10-26 10:36 PanSTARRS 阅读(70) 评论(0) 推荐(0)