随笔分类 -  深度学习

摘要:论文:[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 概述 Vision Transformer (ViT) 将标准 Transformer 架构直接应用于图像分类任务。模 阅读全文
posted @ 2026-03-16 22:08 鹏展-penggeon 阅读(227) 评论(0) 推荐(0)
摘要:什么是 CLIP? CLIP(Contrastive Language-Image Pre-training,对比语言-图像预训练)是 OpenAI 提出的一种多模态预训练模型。它采用对比学习和双塔架构,实现了视觉与语言的统一表征。 CLIP并不像是一种模型,更像是一种方法,一种通用的将计算机视觉模 阅读全文
posted @ 2026-03-15 15:35 鹏展-penggeon 阅读(168) 评论(0) 推荐(0)
摘要:论文链接:Attention Is All You Need 这篇论文提出了 Transformer 模型架构,这是一个序列到序列的模型,在论文中被应用于英德和英法两个机器翻译任务。 由于 Transformer 被用于翻译任务,整个模型的输入维度是 (batch_size, seq_len)​,输 阅读全文
posted @ 2026-03-14 14:33 鹏展-penggeon 阅读(262) 评论(2) 推荐(1)