2025 年 12月 11 日随笔档案 - 云岛夜川川

2025年12月11日

摘要：第 1 阶段：Embedding 和位置编码详解概述 Transformer 模型的第一步是将离散的 token（例如，单词的索引）转换为密集的向量表示。这个过程包括两个关键部分： Embedding 层：将整数索引映射到高维向量位置编码：添加位置信息，因为自注意力机制是排列不变的为什么需要阅读全文

posted @ 2025-12-11 10:06 云岛夜川川阅读(22) 评论(0) 推荐(0)

iruan

公告