摘要: 一、视觉模型深度解析 Vision Transformer (ViT) Patch处理 输入图像(224×224)分割为196个16×16 Patch,线性投影为768维向量。 添加类别Token([class])和位置编码(一维正弦函数):PE_{(pos,2i)} = \sin(pos/1000 阅读全文
posted @ 2025-06-16 15:30 Xu_9 阅读(27) 评论(0) 推荐(0)