PanSTARRS - 博客园

2023年12月6日

【论文阅读笔记】【多模态-Referring & Grounding】 Grounded Language-Image Pre-training

摘要： GLIP CVPR 2022 (Oral, Best Paper Finalist) 读论文思考的问题论文试图解决什么问题？写作背景是什么？问题：如何将视觉-语言预训练技术应用在以目标检测为代表的 fine-grained image understanding 上面？如何在增加训练数据的同阅读全文

posted @ 2023-12-06 20:12 PanSTARRS 阅读(973) 评论(0) 推荐(0)

2023年11月30日

【论文阅读笔记】【OCR-文本识别】 LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition

摘要： LISTER ICCV 2023 读论文思考的问题论文试图解决什么问题？由于长尾效应和错误累积等原因，现有的文本识别模型对于长文本的识别能力较差如何提高模型对于长度较长的文本的识别能力？文章提出了什么样的解决方法？提出了 LISTER 模型，引入了 neighbor matrix 的概念，阅读全文

posted @ 2023-11-30 11:36 PanSTARRS 阅读(221) 评论(0) 推荐(0)

2023年11月23日

【论文阅读笔记】【OCR-End2End】 ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer

摘要： ESTextSpotter ICCV 2023 读论文思考的问题论文试图解决什么问题？场景文本端到端识别任务中，检测和识别两个任务的协同作用十分关键，然而以往的方法通常用一些十分隐式的方式来体现这种协同作用（shared backbone, shared encoder, shared quer 阅读全文

posted @ 2023-11-23 14:38 PanSTARRS 阅读(275) 评论(0) 推荐(0)

2023年11月15日

【论文阅读笔记】【Image Retrieval】 Global Features are All You Need for Image Retrieval and Reranking

摘要： SuperGlobal ICCV 2023 读论文思考的问题论文试图解决什么问题？图片检索方法通常由粗粒度图片检索和精确的结果重排列两个模块组成。人们通常认为图片的 local feature 在结果重排列中是不可或缺的，但对大量的 local feature 的计算需要较高的计算资源和时间能阅读全文

posted @ 2023-11-15 19:33 PanSTARRS 阅读(533) 评论(0) 推荐(0)

【小技巧】如何利用 wget 命令在 Linux 系统上下载自己的 OneDrive 上的大文件

摘要：最近有一个在 Linux 系统上利用 wget 命令下载自己账号的 OneDrive 上的大文件的需求。在网上找了许多方法（利用F12之类的）都不是很灵，最后终于探索出了一个非常简单的方法。方法通过 360浏览器X 登录OneDrive，进入需要分享的文件界面。（这里吐槽一下 Chrome 的阅读全文

posted @ 2023-11-15 11:22 PanSTARRS 阅读(2851) 评论(0) 推荐(0)

2023年11月12日

【论文阅读笔记】【OCR-文本识别】 CLIPTER: Looking at the Bigger Picture in Scene Text Recognition

摘要： CLIPTER ICCV 2023 读论文思考的问题论文试图解决什么问题？现有的文本识别方法只关注于局部截取的文本区域，识别模型并没有利用全图的上下文信息，导致其可能对有挑战性的文本的识别效果较差能否以某种方式使识别器利用上global feature的信息？文章提出了什么样的解决方法？提阅读全文

posted @ 2023-11-12 15:45 PanSTARRS 阅读(138) 评论(0) 推荐(0)

2023年11月9日

【论文阅读笔记】【OCR-文本识别】 Scene Text Recognition with Permuted Autoregressive Sequence Models

摘要： PARSeq ECCV 2022 读论文思考的问题论文试图解决什么问题？一些文本识别模型会对 semantic 信息建模，从而辅助某些困难情况下的文本识别传统的 auto-regressive 方式限制了语义信息的传输方向；双向的 auto-regressive 聚合增加了不必要的计算量和复杂阅读全文

posted @ 2023-11-09 22:16 PanSTARRS 阅读(259) 评论(0) 推荐(0)

2023年11月7日

【论文阅读笔记】【OCR-文本检测】 Few Could Be Better Than All: Feature Sampling and Grouping for Scene Text Detection

摘要： CVPR 2022 读论文思考的问题论文试图解决什么问题？一些基于 DETR 的方法在 ICDAR15, MLT17 等文字尺度变化范围较大的数据集上文本检测的效果不佳 DETR 运用的高层特征图难以捕捉小文字的特征，且会引入很多无关的背景噪声，增加了检测的困难程度即使使用 DETR 的改进模阅读全文

posted @ 2023-11-07 14:10 PanSTARRS 阅读(141) 评论(0) 推荐(0)

2023年10月27日

【论文阅读笔记】【多模态-Referring & Grounding】 Ferret: Refer and Ground Anything Anywhere at Any Granularity

摘要：读论文思考的问题论文试图解决什么问题？ referring 和 grounding 是图片空间信息理解的两大方面，而以往的模型通常只关注于其中的一个方面能否根据人类理解图片的能力，将 referring 和 grounding 的能力统一到一个模型中？如何联合这两个任务？它们能相互促进吗？如阅读全文

posted @ 2023-10-27 15:35 PanSTARRS 阅读(1148) 评论(0) 推荐(0)

2023年10月26日

【论文阅读笔记】【OCR-文本识别】 From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network

摘要： VisionLAN ICCV 2021 读论文思考的问题论文试图解决什么问题？使用语言模型对识别的文本的上下文语义信息进行建模时，会有以下问题：引入额外的计算量；识别的视觉和语言特征很难做一个很好的融合、互补能否在不使用语言模型的情况下，直接赋予视觉模型一定的语言建模能力？文章提出了什么样的阅读全文

posted @ 2023-10-26 10:36 PanSTARRS 阅读(70) 评论(0) 推荐(0)

ywh2000

公告