随笔分类 - 深度学习
摘要:论文:[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 概述 Vision Transformer (ViT) 将标准 Transformer 架构直接应用于图像分类任务。模
阅读全文
摘要:什么是 CLIP? CLIP(Contrastive Language-Image Pre-training,对比语言-图像预训练)是 OpenAI 提出的一种多模态预训练模型。它采用对比学习和双塔架构,实现了视觉与语言的统一表征。 CLIP并不像是一种模型,更像是一种方法,一种通用的将计算机视觉模
阅读全文
摘要:论文链接:Attention Is All You Need 这篇论文提出了 Transformer 模型架构,这是一个序列到序列的模型,在论文中被应用于英德和英法两个机器翻译任务。 由于 Transformer 被用于翻译任务,整个模型的输入维度是 (batch_size, seq_len),输
阅读全文

浙公网安备 33010602011771号