2025 年 12月 25 日随笔档案 - 南萱

2025年12月25日

摘要：自注意力机制：核心是给序列中各Token分配权重，通过Q（查询）、K（键）、V（值）计算相似度得到注意力分数，经softmax归一化后加权求和输出，多头注意力可并行捕捉多维度依赖。位置编码：因模型无时序性，通过正弦余弦向量与Token的Embedding相加，保留序列顺序信息。残差连接+层归一化阅读全文

posted @ 2025-12-25 19:41 南萱阅读(5) 评论(0) 推荐(0)

fyt2025

公告