大模型 - 随笔分类 - 穷酸秀才大草包

SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Abstract 本文介绍了一种用于基于神经的文本处理(包括神经机器翻译)的与语言相关的子词标记器(tokenizer)和去标记器(detokenizer)。它为子字单元提供了开源C++和Python实现。虽然现有的子词分割工具假设输入被阅读全文

posted @ 2024-06-13 10:35 穷酸秀才大草包阅读(190) 评论(0) 推荐(0)

Neural machine translation of rare words with subword units

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Abstract 神经机器翻译(NMT)模型通常使用固定的词汇，但翻译是一个开放的词汇问题。以前的工作是通过使用字典来翻译词汇表外的单词。在本文中，我们介绍了一种更简单有效的方法，通过将稀有且未知的单词编码为子单词单元序列，使NMT模型能阅读全文

posted @ 2024-06-12 19:18 穷酸秀才大草包阅读(132) 评论(0) 推荐(0)

LLaMA: Open and Efficient Foundation Language Models

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Abstract 我们介绍LLaMA，它是一组基础语言模型，参数范围从7B到65B。我们在数万亿的token上训练我们的模型，并表明完全使用公开可用的数据集训练最先进的模型是可能的，而无需求助于专有且不可访问的数据集。特别是，LLaMA- 阅读全文

posted @ 2024-06-12 16:55 穷酸秀才大草包阅读(163) 评论(0) 推荐(0)

GLaMM : Pixel Grounding Large Multimodal Model

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Abstract 大型多模态模型(Large Multimodal Model, LMM)将大语言模型扩展到视觉领域。最初的LMM使用整体图像和文本提示词来生成无定位的文本响应。最近，区域级LMM已被用于生成视觉定位响应。然而，它们仅限于阅读全文

posted @ 2024-06-08 19:20 穷酸秀才大草包阅读(922) 评论(0) 推荐(0)

CogVLM: Visual Expert For Large Language Models

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ ABSTRACT 我们介绍了CogVLM，一个强大的开源视觉语言基础模型。与流行的将图像特征映射到语言模型输入空间的浅层对齐方法不同，CogVLM在注意力层和FFN层通过可训练的视觉专家模块弥合了冻结的预训练语言模型和图像编码器之间的差距阅读全文

posted @ 2024-05-30 19:15 穷酸秀才大草包阅读(657) 评论(0) 推荐(0)

End-to-End Object Detection with Transformers

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ European conference on computer vision, 2020 Abstract. 我们提出了一种新的方法，将目标检测视为一个直接集合预测问题。我们的方法简化了检测流程，有效地消除了对许多手工设计的组件的需求，如阅读全文

posted @ 2024-05-29 19:16 穷酸秀才大草包阅读(217) 评论(0) 推荐(0)

Learning Transferable Visual Models From Natural Language Supervision

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Proceedings of the 38 th International Conference on Machine Learning, PMLR 139, 2021. Abstract SOTA计算机视觉系统被训练为预测一组固定的预阅读全文

posted @ 2024-05-29 10:35 穷酸秀才大草包阅读(121) 评论(0) 推荐(0)

LiT: Zero-shot transfer with locked-image text tuning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022 Abstract 本文提出了对比调整，这是一种简阅读全文

posted @ 2024-05-28 17:34 穷酸秀才大草包阅读(446) 评论(0) 推荐(0)

Simple Open-Vocabulary Object Detection with Vision Transformers

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Abstract. 将简单的结构与大规模的预训练相结合，导致了图像分类的巨大改进。对于目标检测，预训练和缩放方法还没有很好地建立，尤其是在长尾和开放词汇环境中，那里的训练数据相对较少。在本文中，我们提出了一个将图像-文本模型转移到开放词汇阅读全文

posted @ 2024-05-27 19:23 穷酸秀才大草包阅读(434) 评论(0) 推荐(0)

A Simple Framework for Open-Vocabulary Segmentation and Detection

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023. Abstract 我们介绍了OpenSeeD，这是一个简单的开放词汇分割和检测框阅读全文

posted @ 2024-05-25 11:36 穷酸秀才大草包阅读(210) 评论(0) 推荐(0)

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023. Abstract 在本文中，我们提出了一个统一的目标检测和分阅读全文

posted @ 2024-05-24 17:34 穷酸秀才大草包阅读(796) 评论(0) 推荐(0)

An image is worth 16x16 words: Transformers for image recognition at scale

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Published as a conference paper at ICLR 2021 ABSTRACT 虽然Transformer结构已成为自然语言处理任务的事实标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结阅读全文

posted @ 2024-05-24 12:56 穷酸秀才大草包阅读(786) 评论(0) 推荐(0)

Segment Anything

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023 Abstract 我们介绍了Segment Anything (SA)项目：一种用阅读全文

posted @ 2024-05-24 11:56 穷酸秀才大草包阅读(572) 评论(0) 推荐(0)

Semantic-SAM: Segment and Recognize Anything at Any Granularity

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Abstract 在本文中，我们介绍了Semantic-SAM，这是一种通用的图像分割模型，可以以任何所需的粒度分割和识别任何东西。我们的模型提供了两个关键优势：语义感知和粒度丰富性。为了实现语义感知，我们跨粒度合并多个数据集，并对解耦的阅读全文

posted @ 2024-05-24 11:10 穷酸秀才大草包阅读(500) 评论(0) 推荐(0)

Visual Instruction Tuning

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ 37th Conference on Neural Information Processing Systems (NeurIPS 2023) Abstract 使用机器生成的指令跟踪数据的指令调优大语言模型（LLM）已被证明可以提高新任阅读全文

posted @ 2024-05-22 17:25 穷酸秀才大草包阅读(270) 评论(0) 推荐(0)

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Abstract 随着大型多模态模型(LMM)的最新重大进展，它们在视觉聊天中的定位(Grounding)能力的重要性越来越得到认可。尽管最近努力使LMM支持定位，但它们的定位和聊天能力通常是分开的，当被要求定位时，它们的聊天性能会急剧下阅读全文

posted @ 2024-05-22 15:00 穷酸秀才大草包阅读(1067) 评论(0) 推荐(0)

Language Models are Unsupervised Multitask Learners

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ OpenAI blog, 2019 阅读全文

posted @ 2023-12-28 15:03 穷酸秀才大草包阅读(54) 评论(0) 推荐(0)

Language Models are Few-Shot Learners

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ NeurIPS 2020 Abstract 我们证明，扩展语言模型大大提高了任务不可知小样本的性能，有时甚至与最先进的微调方法相比具有竞争力。具体来说，我们训练GPT-3，这是一个具有1750亿个参数的自回归语言模型，比以前的任何非稀疏语阅读全文

posted @ 2023-11-19 16:14 穷酸秀才大草包阅读(166) 评论(0) 推荐(0)

LLM资料整理

摘要：框架： 1、https://github.com/LianjiaTech/BELLE 支持Docker 2、https://github.com/vllm-project/vllm 3、https://github.com/hiyouga/LLaMA-Factory/ 一个训练框架，比起BELLE来阅读全文

posted @ 2023-10-29 17:39 穷酸秀才大草包阅读(284) 评论(0) 推荐(0)

Training language models to follow instructions with human feedback

摘要：郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ NeurIPS 2022 Abstract 将语言模型做得更大并不能从本质上使它们更好地遵循用户的意图。例如，大型语言模型可能生成不真实、有害或对用户毫无帮助的输出。换句话说，这些模型与其用户不一致。在本文中，我们展示了一种通过对人类反馈阅读全文

posted @ 2023-09-14 15:06 穷酸秀才大草包阅读(603) 评论(0) 推荐(0)

穷酸秀才大艹包

随笔分类 - 大模型

导航

公告