随笔分类 -  论文阅读笔记

摘要:CVPR 2023 读论文思考的问题 论文试图解决什么问题?写作背景是什么? 问题: 如何更好地在任意场景下实现双手的姿态估计和重构? 背景: 现有的方法将两只手当做一个整体去提取特征,同时回归出两只手的信息,这种特征对于双手识别来说并不是最优的,同时也带来了限制:输入必须是2只手;当遇到复杂情景( 阅读全文
posted @ 2024-09-22 15:29 PanSTARRS 阅读(64) 评论(0) 推荐(0)
摘要:CVPR 2023 读论文思考的问题 论文试图解决什么问题?写作背景是什么? 问题: 如何在双手识别中集成 paramatic (MANO) 和 non-paramatic hand (GCN) representation 方法的优点? 背景: 基于手部模型 MANO 的方法能够产生合理且稳定的手 阅读全文
posted @ 2024-09-21 15:50 PanSTARRS 阅读(257) 评论(0) 推荐(0)
摘要:CVPR 2022 (Oral) 读论文思考的问题 论文试图解决什么问题?写作背景是什么? 问题: 如何将图卷积神经网络(GCN)结构应用到双手交互识别上,且能很好地解决双手的遮挡、相似和交互的问题? 背景: 双手识别的挑战:1. 严重的相互遮挡,双手形状类似。2. 难以有效地建模交互的上下文信息 阅读全文
posted @ 2024-09-20 17:20 PanSTARRS 阅读(48) 评论(0) 推荐(0)
摘要:ICCV 2021 读论文思考的问题 论文试图解决什么问题?写作背景是什么? 问题: 如何针对性解决双手手势识别里出现的重度遮挡以及深度交互的问题? 背景: 由于严重的遮挡和交互特点,先前针对单手手势识别设计的模型不能很好地应用到双手的情景中 文章提出了什么样的解决方法? 提出了一个深度学习模型,通 阅读全文
posted @ 2024-09-19 17:14 PanSTARRS 阅读(79) 评论(0) 推荐(0)
摘要:Bridge Text Spotting CVPR 2024 读论文思考的问题 论文试图解决什么问题? 问题: 如何在保证模块化的前提下,更好地解决两阶段场景文本检测方法中的误差累积问题? 背景: 端到端的场景文本检测识别模型在新场景应用、更换检测器等情况下需要花费大量的时间训练 两阶段模型虽然有误 阅读全文
posted @ 2024-07-08 16:09 PanSTARRS 阅读(147) 评论(0) 推荐(0)
摘要:TextFormer arXiv:2306.03377 读论文思考的问题 论文试图解决什么问题?写作背景是什么? 问题: 如何设计一种更好的 query-based 的方法来同时实现端到端的场景文本检测 能否利用弱监督数据(只有文本)进一步增强端到端模型的文本识别能力? 背景: 目前的端到端场景文本 阅读全文
posted @ 2024-01-14 17:15 PanSTARRS 阅读(83) 评论(0) 推荐(0)
摘要:BLIP ICML 2022 (Spotlight) 读论文思考的问题 论文试图解决什么问题?写作背景是什么? 问题: 在视觉-语言预训练(VLP)中,如何提高充斥着噪声的海量图文对数据的质量,提升预训练效果? 如何设计模型,使得预训练后的模型在理解(understanding-based)任务和生 阅读全文
posted @ 2023-12-14 10:37 PanSTARRS 阅读(293) 评论(0) 推荐(0)
摘要:SEED CVPR 2020 读论文思考的问题 论文试图解决什么问题?写作背景是什么? 问题: 如何利用全局的语义信息提高文本识别模型对低质量文本的鲁棒性和识别效果? 背景: 以往的基于 encoder-decoder 的文本识别方法通常基于局部的视觉特征解码出文本,忽略了对单词显式的全局语义信息的 阅读全文
posted @ 2023-12-12 16:52 PanSTARRS 阅读(120) 评论(0) 推荐(0)
摘要:GLIP CVPR 2022 (Oral, Best Paper Finalist) 读论文思考的问题 论文试图解决什么问题?写作背景是什么? 问题: 如何将视觉-语言预训练技术应用在以目标检测为代表的 fine-grained image understanding 上面? 如何在增加训练数据的同 阅读全文
posted @ 2023-12-06 20:12 PanSTARRS 阅读(973) 评论(0) 推荐(0)
摘要:LISTER ICCV 2023 读论文思考的问题 论文试图解决什么问题? 由于长尾效应和错误累积等原因,现有的文本识别模型对于长文本的识别能力较差 如何提高模型对于长度较长的文本的识别能力? 文章提出了什么样的解决方法? 提出了 LISTER 模型,引入了 neighbor matrix 的概念, 阅读全文
posted @ 2023-11-30 11:36 PanSTARRS 阅读(222) 评论(0) 推荐(0)
摘要:ESTextSpotter ICCV 2023 读论文思考的问题 论文试图解决什么问题? 场景文本端到端识别任务中,检测和识别两个任务的协同作用十分关键,然而以往的方法通常用一些十分隐式的方式来体现这种协同作用(shared backbone, shared encoder, shared quer 阅读全文
posted @ 2023-11-23 14:38 PanSTARRS 阅读(275) 评论(0) 推荐(0)
摘要:SuperGlobal ICCV 2023 读论文思考的问题 论文试图解决什么问题? 图片检索方法通常由粗粒度图片检索和精确的结果重排列两个模块组成。人们通常认为图片的 local feature 在结果重排列中是不可或缺的,但对大量的 local feature 的计算需要较高的计算资源和时间 能 阅读全文
posted @ 2023-11-15 19:33 PanSTARRS 阅读(534) 评论(0) 推荐(0)
摘要:CLIPTER ICCV 2023 读论文思考的问题 论文试图解决什么问题? 现有的文本识别方法只关注于局部截取的文本区域,识别模型并没有利用全图的上下文信息,导致其可能对有挑战性的文本的识别效果较差 能否以某种方式使识别器利用上global feature的信息? 文章提出了什么样的解决方法? 提 阅读全文
posted @ 2023-11-12 15:45 PanSTARRS 阅读(139) 评论(0) 推荐(0)
摘要:PARSeq ECCV 2022 读论文思考的问题 论文试图解决什么问题? 一些文本识别模型会对 semantic 信息建模,从而辅助某些困难情况下的文本识别 传统的 auto-regressive 方式限制了语义信息的传输方向;双向的 auto-regressive 聚合增加了不必要的计算量和复杂 阅读全文
posted @ 2023-11-09 22:16 PanSTARRS 阅读(260) 评论(0) 推荐(0)
摘要:CVPR 2022 读论文思考的问题 论文试图解决什么问题? 一些基于 DETR 的方法在 ICDAR15, MLT17 等文字尺度变化范围较大的数据集上文本检测的效果不佳 DETR 运用的高层特征图难以捕捉小文字的特征,且会引入很多无关的背景噪声,增加了检测的困难程度 即使使用 DETR 的改进模 阅读全文
posted @ 2023-11-07 14:10 PanSTARRS 阅读(142) 评论(0) 推荐(0)
摘要:读论文思考的问题 论文试图解决什么问题? referring 和 grounding 是图片空间信息理解的两大方面,而以往的模型通常只关注于其中的一个方面 能否根据人类理解图片的能力,将 referring 和 grounding 的能力统一到一个模型中? 如何联合这两个任务?它们能相互促进吗? 如 阅读全文
posted @ 2023-10-27 15:35 PanSTARRS 阅读(1151) 评论(0) 推荐(0)
摘要:VisionLAN ICCV 2021 读论文思考的问题 论文试图解决什么问题? 使用语言模型对识别的文本的上下文语义信息进行建模时,会有以下问题:引入额外的计算量;识别的视觉和语言特征很难做一个很好的融合、互补 能否在不使用语言模型的情况下,直接赋予视觉模型一定的语言建模能力? 文章提出了什么样的 阅读全文
posted @ 2023-10-26 10:36 PanSTARRS 阅读(71) 评论(0) 推荐(0)
摘要:ABINet CVPR 2021 (Oral) 读论文思考的问题 论文试图解决什么问题? 如何对语言的上下文进行建模而不是对视觉特征的上下文信息进行建模 如何在端到端的文本识别模型中更好、更高效地对文本的语言知识进行建模,提升对困难情况的字符识别效果 文章提出了什么样的解决方法? 提出了一个 aut 阅读全文
posted @ 2023-10-26 10:36 PanSTARRS 阅读(118) 评论(0) 推荐(0)
摘要:SRN CVPR2020 读论文思考的问题 论文试图解决什么问题? 如何利用文本的上下文语义信息来辅助文本识别任务 RNN 能部分利用语义信息,但它的利用方式是串行的,极大地限制了语义信息的帮助,会造成错误累积以及效率缓慢等问题 文章提出了什么样的解决方法? 提出全局语义理解模块(GSRM),通过多 阅读全文
posted @ 2023-10-26 10:35 PanSTARRS 阅读(117) 评论(0) 推荐(0)
摘要:读论文时思考的问题 论文试图解决什么问题? 如何更好地建立视觉方面的 fundation model 如何建立一个模型,使得其在 没有人类输入信号的情况下(这里主要是 one-shot image)能更好地挖掘SAM的能力,实现相同的语义元素(好像不一定要求是一个实例)的分割(并提取割出来的物体的语 阅读全文
posted @ 2023-10-26 10:29 PanSTARRS 阅读(232) 评论(0) 推荐(1)