transformer读书报告

自注意力机制：核心是给序列中各Token分配权重，通过Q（查询）、K（键）、V（值）计算相似度得到注意力分数，经softmax归一化后加权求和输出，多头注意力可并行捕捉多维度依赖。
位置编码：因模型无时序性，通过正弦余弦向量与Token的Embedding相加，保留序列顺序信息。
残差连接+层归一化：解决深层模型梯度消失问题，稳定训练；前馈网络对向量做非线性变换，增强表达能力。

posted @ 2025-12-25 19:41 南萱阅读(5) 评论(0) 收藏举报

刷新页面返回顶部