2024 年 5月随笔档案 - 穷酸秀才大草包

CogVLM: Visual Expert For Large Language Models

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ ABSTRACT 我们介绍了CogVLM，一个强大的开源视觉语言基础模型。与流行的将图像特征映射到语言模型输入空间的浅层对齐方法不同，CogVLM在注意力层和FFN层通过可训练的视觉专家模块弥合了冻结的预训练语言模型和图像编码器之间的差距阅读全文

posted @ 2024-05-30 19:15 穷酸秀才大草包阅读(619) 评论(0) 推荐(0)

End-to-End Object Detection with Transformers

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ European conference on computer vision, 2020 Abstract. 我们提出了一种新的方法，将目标检测视为一个直接集合预测问题。我们的方法简化了检测流程，有效地消除了对许多手工设计的组件的需求，如阅读全文

posted @ 2024-05-29 19:16 穷酸秀才大草包阅读(182) 评论(0) 推荐(0)

Learning Transferable Visual Models From Natural Language Supervision

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Proceedings of the 38 th International Conference on Machine Learning, PMLR 139, 2021. Abstract SOTA计算机视觉系统被训练为预测一组固定的预阅读全文

posted @ 2024-05-29 10:35 穷酸秀才大草包阅读(98) 评论(0) 推荐(0)

LiT: Zero-shot transfer with locked-image text tuning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022 Abstract 本文提出了对比调整，这是一种简阅读全文

posted @ 2024-05-28 17:34 穷酸秀才大草包阅读(407) 评论(0) 推荐(0)

Simple Open-Vocabulary Object Detection with Vision Transformers

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Abstract. 将简单的结构与大规模的预训练相结合，导致了图像分类的巨大改进。对于目标检测，预训练和缩放方法还没有很好地建立，尤其是在长尾和开放词汇环境中，那里的训练数据相对较少。在本文中，我们提出了一个将图像-文本模型转移到开放词汇阅读全文

posted @ 2024-05-27 19:23 穷酸秀才大草包阅读(383) 评论(0) 推荐(0)

A Simple Framework for Open-Vocabulary Segmentation and Detection

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023. Abstract 我们介绍了OpenSeeD，这是一个简单的开放词汇分割和检测框阅读全文

posted @ 2024-05-25 11:36 穷酸秀才大草包阅读(184) 评论(0) 推荐(0)

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023. Abstract 在本文中，我们提出了一个统一的目标检测和分阅读全文

posted @ 2024-05-24 17:34 穷酸秀才大草包阅读(717) 评论(0) 推荐(0)

An image is worth 16x16 words: Transformers for image recognition at scale

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Published as a conference paper at ICLR 2021 ABSTRACT 虽然Transformer结构已成为自然语言处理任务的事实标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结阅读全文

posted @ 2024-05-24 12:56 穷酸秀才大草包阅读(738) 评论(0) 推荐(0)

Segment Anything

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023 Abstract 我们介绍了Segment Anything (SA)项目：一种用阅读全文

posted @ 2024-05-24 11:56 穷酸秀才大草包阅读(534) 评论(0) 推荐(0)

Semantic-SAM: Segment and Recognize Anything at Any Granularity

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Abstract 在本文中，我们介绍了Semantic-SAM，这是一种通用的图像分割模型，可以以任何所需的粒度分割和识别任何东西。我们的模型提供了两个关键优势：语义感知和粒度丰富性。为了实现语义感知，我们跨粒度合并多个数据集，并对解耦的阅读全文

posted @ 2024-05-24 11:10 穷酸秀才大草包阅读(474) 评论(0) 推荐(0)

Visual Instruction Tuning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ 37th Conference on Neural Information Processing Systems (NeurIPS 2023) Abstract 使用机器生成的指令跟踪数据的指令调优大语言模型（LLM）已被证明可以提高新任阅读全文

posted @ 2024-05-22 17:25 穷酸秀才大草包阅读(250) 评论(0) 推荐(0)

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Abstract 随着大型多模态模型(LMM)的最新重大进展，它们在视觉聊天中的定位(Grounding)能力的重要性越来越得到认可。尽管最近努力使LMM支持定位，但它们的定位和聊天能力通常是分开的，当被要求定位时，它们的聊天性能会急剧下阅读全文

posted @ 2024-05-22 15:00 穷酸秀才大草包阅读(1000) 评论(0) 推荐(0)

穷酸秀才大艹包

05 2024 档案