论文阅读 - 随笔分类 - seekwhale13

论文阅读-CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching

摘要：摘要开集词汇检测（OVD）是一项目标检测任务，旨在检测训练检测器的基类之外的新类别对象。最近的开集词汇检测方法依赖于大规模的视觉-语言预训练模型，如CLIP，以识别新对象。我们确定了在将这些模型纳入检测器训练时需要解决的两大核心障碍：（1）当将训练于整幅图像的VL模型应用于区域识别任务时出现的分布阅读全文

posted @ 2024-10-30 09:42 seekwhale13 阅读(201) 评论(0) 推荐(0)

论文阅读-Learning to Predict Visual Attributes in the Wild

摘要：摘要视觉属性构成了场景中包含信息的大部分。物体可以使用多种属性来描述，这些属性展现了它们的视觉外观（颜色、纹理）、几何特征（形状、大小、姿态）以及其他内在属性（状态、动作）。现有工作大多局限于特定领域内的属性预测研究。在本文中，我们介绍了一个大规模的野外视觉属性预测数据集，该数据集包含超过260K 阅读全文

posted @ 2024-10-25 17:01 seekwhale13 阅读(97) 评论(0) 推荐(0)

论文阅读-ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling

摘要：摘要识别并从对象中分离视觉属性是许多计算机视觉应用的基础。虽然像CLIP这样的大型视觉-语言表示在很大程度上解决了零样本对象识别的任务，但零样本视觉属性识别仍然是一个挑战，因为CLIP通过对比学习得到的视觉-语言表示无法有效捕捉对象-属性依赖关系。在本文中，我们针对这一弱点提出了一个基于句子生成的阅读全文

posted @ 2024-10-21 20:41 seekwhale13 阅读(134) 评论(0) 推荐(0)

论文阅读01-Improving Closed and Open-Vocabulary Attribute Prediction using Transformers

摘要：摘要我们研究在视觉场景中识别对象的属性。我们将属性视为描述对象的物理和语义属性以及其与其他对象关系的任何短语。现有工作在封闭环境下研究属性预测，并使用一组固定的属性，实现了一个使用有限上下文的模型。我们提出了TAP，这是一个新的基于Transformer的模型，可以在单个前向传递中利用上下文并为场阅读全文

posted @ 2024-09-03 10:19 seekwhale13 阅读(54) 评论(0) 推荐(0)

论文精读

摘要：如何读一篇论文第一步阅读 title、abstract 和 figures。通过阅读 title、abstract、figures 和实验部分，可以对论文有一个大致的理解。大部分深度学习论文，都会总结出一两张图片让你理解起来更方便，而不需要通过阅读整篇论文。第二步阅读 introductio 阅读全文

posted @ 2024-09-03 09:59 seekwhale13 阅读(94) 评论(0) 推荐(0)

论文阅读- A Comprehensive Study of Image Classification Model Sensitivity to Foregrounds, Backgrounds, and Visual Attributes

摘要：问题引出 1.背景噪声比前景噪声更能降低模型精确度概念背景敏感度（foreground sensitivity）是一种用于评估模型对前景和背景信息的敏感度的指标。通过计算模型在前景和背景噪声下的准确性，可以得到相对前景敏感度（RF S），用于比较不同模型在相同噪声水平下对前景和背景信息的敏感度。阅读全文

posted @ 2024-03-06 09:56 seekwhale13 阅读(38) 评论(0) 推荐(0)

论文阅读-《显著性目标检测中的完整性学习》

摘要：1.论文摘要尽管当前显著性目标检测已取得重大突破，它们在预测显著区域的"完整性"上仍存在局限性。本文把"完整性"的概念分为微观完整性和宏观完整性两个层面。具体而言，在微观层面上，模型需要找出单个显著目标的所有部分。而在宏观层面上，模型需要发现图片中的所有显著目标。为了达到对显著性目标检测的完整阅读全文

posted @ 2024-02-27 11:50 seekwhale13 阅读(89) 评论(0) 推荐(0)

seekwhale13

随笔分类 - 论文阅读

公告