深度学习 - 随笔分类 - 鹏展-penggeon

Vision Transformer (ViT) 技术解析

摘要：论文：[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 概述 Vision Transformer (ViT) 将标准 Transformer 架构直接应用于图像分类任务。模阅读全文

posted @ 2026-03-16 22:08 鹏展-penggeon 阅读(227) 评论(0) 推荐(0)

CLIP：连接视觉与语言的桥梁

摘要：什么是 CLIP？ CLIP（Contrastive Language-Image Pre-training，对比语言-图像预训练）是 OpenAI 提出的一种多模态预训练模型。它采用对比学习和双塔架构，实现了视觉与语言的统一表征。 CLIP并不像是一种模型，更像是一种方法，一种通用的将计算机视觉模阅读全文

posted @ 2026-03-15 15:35 鹏展-penggeon 阅读(168) 评论(0) 推荐(0)

深入理解 Transformer：从数据流动看模型架构

摘要：论文链接：Attention Is All You Need 这篇论文提出了 Transformer 模型架构，这是一个序列到序列的模型，在论文中被应用于英德和英法两个机器翻译任务。由于 Transformer 被用于翻译任务，整个模型的输入维度是 (batch_size, seq_len)，输阅读全文

posted @ 2026-03-14 14:33 鹏展-penggeon 阅读(262) 评论(2) 推荐(1)

鹏展的博客

随笔分类 - 深度学习

公告