随笔分类 - VIT
摘要:常用的ViT模型有许多版本和变种,它们在不同的任务和数据规模上表现出色。以下是一些常见的ViT模型及其变种: 1. ViT-B/16, ViT-B/32 ViT-B/16和ViT-B/32是Vision Transformer的基本版本,"B"代表Base模型,数字16和32代表图像块的大小(如16
阅读全文
摘要:在Vision Transformer (ViT) 中,图像的预处理过程主要包括将图像转换为适合Transformer模型输入的格式。以下是从原始图像到模型输入所进行的主要操作步骤: 1. 图像尺寸调整 (Resize) 将输入图像调整为固定大小,通常是正方形(例如,224x224像素)。这是为了统
阅读全文
摘要:Vision Transformer 线性映射 Vision Transformer (ViT): 线性映射 1. 展平图像块 假设输入的图像块大小为 P × P 像素,并且图像有 C 个通道(对于RGB图像,通常 C = 3)。 每个图像块被展平成一个向量,向量的维度为 P × P × C 。 例
阅读全文