05 2024 档案

CogVLM: Visual Expert For Large Language Models
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! ABSTRACT 我们介绍了CogVLM,一个强大的开源视觉语言基础模型。与流行的将图像特征映射到语言模型输入空间的浅层对齐方法不同,CogVLM在注意力层和FFN层通过可训练的视觉专家模块弥合了冻结的预训练语言模型和图像编码器之间的差距 阅读全文

posted @ 2024-05-30 19:15 穷酸秀才大草包 阅读(619) 评论(0) 推荐(0)

End-to-End Object Detection with Transformers
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! European conference on computer vision, 2020 Abstract. 我们提出了一种新的方法,将目标检测视为一个直接集合预测问题。我们的方法简化了检测流程,有效地消除了对许多手工设计的组件的需求,如 阅读全文

posted @ 2024-05-29 19:16 穷酸秀才大草包 阅读(182) 评论(0) 推荐(0)

Learning Transferable Visual Models From Natural Language Supervision
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Proceedings of the 38 th International Conference on Machine Learning, PMLR 139, 2021. Abstract SOTA计算机视觉系统被训练为预测一组固定的预 阅读全文

posted @ 2024-05-29 10:35 穷酸秀才大草包 阅读(98) 评论(0) 推荐(0)

LiT: Zero-shot transfer with locked-image text tuning
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022 Abstract 本文提出了对比调整,这是一种简 阅读全文

posted @ 2024-05-28 17:34 穷酸秀才大草包 阅读(407) 评论(0) 推荐(0)

Simple Open-Vocabulary Object Detection with Vision Transformers
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract. 将简单的结构与大规模的预训练相结合,导致了图像分类的巨大改进。对于目标检测,预训练和缩放方法还没有很好地建立,尤其是在长尾和开放词汇环境中,那里的训练数据相对较少。在本文中,我们提出了一个将图像-文本模型转移到开放词汇 阅读全文

posted @ 2024-05-27 19:23 穷酸秀才大草包 阅读(383) 评论(0) 推荐(0)

A Simple Framework for Open-Vocabulary Segmentation and Detection
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023. Abstract 我们介绍了OpenSeeD,这是一个简单的开放词汇分割和检测框 阅读全文

posted @ 2024-05-25 11:36 穷酸秀才大草包 阅读(184) 评论(0) 推荐(0)

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023. Abstract 在本文中,我们提出了一个统一的目标检测和分 阅读全文

posted @ 2024-05-24 17:34 穷酸秀才大草包 阅读(717) 评论(0) 推荐(0)

An image is worth 16x16 words: Transformers for image recognition at scale
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Published as a conference paper at ICLR 2021 ABSTRACT 虽然Transformer结构已成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限。在视觉中,注意力要么与卷积网络结 阅读全文

posted @ 2024-05-24 12:56 穷酸秀才大草包 阅读(738) 评论(0) 推荐(0)

Segment Anything
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023 Abstract 我们介绍了Segment Anything (SA)项目:一种用 阅读全文

posted @ 2024-05-24 11:56 穷酸秀才大草包 阅读(534) 评论(0) 推荐(0)

Semantic-SAM: Segment and Recognize Anything at Any Granularity
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 在本文中,我们介绍了Semantic-SAM,这是一种通用的图像分割模型,可以以任何所需的粒度分割和识别任何东西。我们的模型提供了两个关键优势:语义感知和粒度丰富性。为了实现语义感知,我们跨粒度合并多个数据集,并对解耦的 阅读全文

posted @ 2024-05-24 11:10 穷酸秀才大草包 阅读(474) 评论(0) 推荐(0)

Visual Instruction Tuning
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 37th Conference on Neural Information Processing Systems (NeurIPS 2023) Abstract 使用机器生成的指令跟踪数据的指令调优大语言模型(LLM)已被证明可以提高新任 阅读全文

posted @ 2024-05-22 17:25 穷酸秀才大草包 阅读(250) 评论(0) 推荐(0)

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 随着大型多模态模型(LMM)的最新重大进展,它们在视觉聊天中的定位(Grounding)能力的重要性越来越得到认可。尽管最近努力使LMM支持定位,但它们的定位和聊天能力通常是分开的,当被要求定位时,它们的聊天性能会急剧下 阅读全文

posted @ 2024-05-22 15:00 穷酸秀才大草包 阅读(1000) 评论(0) 推荐(0)

导航