随笔档案「2025年6月16日」：神经网络与深度学习学习笔记（四） ... - Xu_9

2025年6月16日

摘要：一、视觉模型深度解析 Vision Transformer (ViT) Patch处理输入图像（224×224）分割为196个16×16 Patch，线性投影为768维向量。添加类别Token（[class]）和位置编码（一维正弦函数）：PE_{(pos,2i)} = \sin(pos/1000 阅读全文

posted @ 2025-06-16 15:30 Xu_9 阅读(27) 评论(0) 推荐(0)

xu999

公告