会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ywh2000
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
下一页
2023年12月6日
【论文阅读笔记】【多模态-Referring & Grounding】 Grounded Language-Image Pre-training
摘要: GLIP CVPR 2022 (Oral, Best Paper Finalist) 读论文思考的问题 论文试图解决什么问题?写作背景是什么? 问题: 如何将视觉-语言预训练技术应用在以目标检测为代表的 fine-grained image understanding 上面? 如何在增加训练数据的同
阅读全文
posted @ 2023-12-06 20:12 PanSTARRS
阅读(973)
评论(0)
推荐(0)
2023年11月30日
【论文阅读笔记】【OCR-文本识别】 LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition
摘要: LISTER ICCV 2023 读论文思考的问题 论文试图解决什么问题? 由于长尾效应和错误累积等原因,现有的文本识别模型对于长文本的识别能力较差 如何提高模型对于长度较长的文本的识别能力? 文章提出了什么样的解决方法? 提出了 LISTER 模型,引入了 neighbor matrix 的概念,
阅读全文
posted @ 2023-11-30 11:36 PanSTARRS
阅读(221)
评论(0)
推荐(0)
2023年11月23日
【论文阅读笔记】【OCR-End2End】 ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer
摘要: ESTextSpotter ICCV 2023 读论文思考的问题 论文试图解决什么问题? 场景文本端到端识别任务中,检测和识别两个任务的协同作用十分关键,然而以往的方法通常用一些十分隐式的方式来体现这种协同作用(shared backbone, shared encoder, shared quer
阅读全文
posted @ 2023-11-23 14:38 PanSTARRS
阅读(275)
评论(0)
推荐(0)
2023年11月15日
【论文阅读笔记】【Image Retrieval】 Global Features are All You Need for Image Retrieval and Reranking
摘要: SuperGlobal ICCV 2023 读论文思考的问题 论文试图解决什么问题? 图片检索方法通常由粗粒度图片检索和精确的结果重排列两个模块组成。人们通常认为图片的 local feature 在结果重排列中是不可或缺的,但对大量的 local feature 的计算需要较高的计算资源和时间 能
阅读全文
posted @ 2023-11-15 19:33 PanSTARRS
阅读(533)
评论(0)
推荐(0)
【小技巧】 如何利用 wget 命令在 Linux 系统上下载自己的 OneDrive 上的大文件
摘要: 最近有一个在 Linux 系统上利用 wget 命令下载自己账号的 OneDrive 上的大文件的需求。在网上找了许多方法(利用F12之类的)都不是很灵,最后终于探索出了一个非常简单的方法。 方法 通过 360浏览器X 登录OneDrive,进入需要分享的文件界面。 (这里吐槽一下 Chrome 的
阅读全文
posted @ 2023-11-15 11:22 PanSTARRS
阅读(2851)
评论(0)
推荐(0)
2023年11月12日
【论文阅读笔记】【OCR-文本识别】 CLIPTER: Looking at the Bigger Picture in Scene Text Recognition
摘要: CLIPTER ICCV 2023 读论文思考的问题 论文试图解决什么问题? 现有的文本识别方法只关注于局部截取的文本区域,识别模型并没有利用全图的上下文信息,导致其可能对有挑战性的文本的识别效果较差 能否以某种方式使识别器利用上global feature的信息? 文章提出了什么样的解决方法? 提
阅读全文
posted @ 2023-11-12 15:45 PanSTARRS
阅读(138)
评论(0)
推荐(0)
2023年11月9日
【论文阅读笔记】【OCR-文本识别】 Scene Text Recognition with Permuted Autoregressive Sequence Models
摘要: PARSeq ECCV 2022 读论文思考的问题 论文试图解决什么问题? 一些文本识别模型会对 semantic 信息建模,从而辅助某些困难情况下的文本识别 传统的 auto-regressive 方式限制了语义信息的传输方向;双向的 auto-regressive 聚合增加了不必要的计算量和复杂
阅读全文
posted @ 2023-11-09 22:16 PanSTARRS
阅读(259)
评论(0)
推荐(0)
2023年11月7日
【论文阅读笔记】【OCR-文本检测】 Few Could Be Better Than All: Feature Sampling and Grouping for Scene Text Detection
摘要: CVPR 2022 读论文思考的问题 论文试图解决什么问题? 一些基于 DETR 的方法在 ICDAR15, MLT17 等文字尺度变化范围较大的数据集上文本检测的效果不佳 DETR 运用的高层特征图难以捕捉小文字的特征,且会引入很多无关的背景噪声,增加了检测的困难程度 即使使用 DETR 的改进模
阅读全文
posted @ 2023-11-07 14:10 PanSTARRS
阅读(141)
评论(0)
推荐(0)
2023年10月27日
【论文阅读笔记】【多模态-Referring & Grounding】 Ferret: Refer and Ground Anything Anywhere at Any Granularity
摘要: 读论文思考的问题 论文试图解决什么问题? referring 和 grounding 是图片空间信息理解的两大方面,而以往的模型通常只关注于其中的一个方面 能否根据人类理解图片的能力,将 referring 和 grounding 的能力统一到一个模型中? 如何联合这两个任务?它们能相互促进吗? 如
阅读全文
posted @ 2023-10-27 15:35 PanSTARRS
阅读(1148)
评论(0)
推荐(0)
2023年10月26日
【论文阅读笔记】【OCR-文本识别】 From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network
摘要: VisionLAN ICCV 2021 读论文思考的问题 论文试图解决什么问题? 使用语言模型对识别的文本的上下文语义信息进行建模时,会有以下问题:引入额外的计算量;识别的视觉和语言特征很难做一个很好的融合、互补 能否在不使用语言模型的情况下,直接赋予视觉模型一定的语言建模能力? 文章提出了什么样的
阅读全文
posted @ 2023-10-26 10:36 PanSTARRS
阅读(70)
评论(0)
推荐(0)
上一页
1
2
3
下一页
公告