摘要: 第 1 阶段:Embedding 和位置编码详解 概述 Transformer 模型的第一步是将离散的 token(例如,单词的索引)转换为密集的向量表示。这个过程包括两个关键部分: Embedding 层:将整数索引映射到高维向量 位置编码:添加位置信息,因为自注意力机制是排列不变的 为什么需要 阅读全文
posted @ 2025-12-11 10:06 云岛夜川川 阅读(22) 评论(0) 推荐(0)